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内 容 简介 


TensorFlow 是 谷歌 2015 年 开源 的 主流 深度 学 习 框 架 ， 目 前 已 在 谷歌 、 优 步 (Uber)、 京 东 、 小 米 等 科 
技 公司 广泛 应 用 。 本 书 为 使 用 TensorFlow 深度 学 习 框 架 的 入 门 参考 书 ， 则 在 帮助 读者 以 快速 、 有 效 的 方 
式 上 手 TensorFlow 和 深度 学 习 。 书 中 省 略 了 深度 学 习 繁 琐 的 数学 模型 推导 ， 从 实际 应 用 问题 出 发 ， 通 过 
具体 的 TensorFlow 样 例 程 序 介绍 如 何 了 使 用 深度 学 习 解 决 这 些 问 题 。 书 中 包含 了 深度 学 习 的 入 门 知识 和 
大 量 实践 经 验 ， 是 走 进 这 个 前 沿 、 热 门 的 人 工 智能 领域 的 首选 参考 书 。 

读者 对 象 : 对 人 工 智 能 、 深 度 学 习 感 兴趣 的 计算 机 相关 从 业 人 员 ， 想 要 使 用 深度 学 习 或 TensorFlow 的 
数据 科学 家 、 工 程 师 , 希望 了 解 深度 学 习 的 大 数据 平台 工程 师 , 对 人 工 智能 、 机 器 学 习 感 兴趣 的 在 校 学 生 ， 
希望 找 深度 学 习 相关 岗位 的 求职 人 员 ， 等 等 。 


未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 之 部 分 或 全 部 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 
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推荐 序 1 


“互联 网 +” 的 大 潮 催生 了 诸如 “互联 网 + 外 卖 ” “互联 网 + 打车 ”和 “互联 网 + 家 政 ” 等 
众多 商业 模式 的 创新 和 创业 佳话 。 而 当 “ 互 联网 +” 已 被 写 入 教科 书 并 成 为 传统 行业 都 在 积 
极 践 行 的 发 展 道 路 时 ， 过 去 一 年 科技 界 的 聚光灯 却 被 人 工 智能 和 深度 学 习 所 创造 的 一 个 个 
奇迹 所 占据 。 从 阿尔 法 狗 肆 虐 围 棋 界 ， 到 人 工 智 能 创业 大 军 的 崛起 ， 都 预示 着 我 们 即将 步 
入 “AI+” 的 时 代 : “AI+ 教 育 ” “AI+ 媒 体 ”"、 “AIt 医 学 ”、“AI+ 配 送 ”" “AI+ 农 业 ”， 等 等 ， 
将 会 层出不穷 。 

AI 在 近期 的 爆发 离 不 开 数据 “ 质 ” 和 “ 量 ” 的 提升 ， 离 不 开 高 性 能 计算 平台 的 发 展 ， 
更 离 不 开 算法 的 进步 ， 而 深度 学 习 则 成 为 了 推动 算法 进步 中 的 一 个 主力 军 。TensorFlow 作 
为 谷歌 开源 的 深度 学 习 框 架 , 包含 了 谷歌 过 去 10 年 间 对 于 人 工 智能 的 探索 和 成 功 的 商业 应 
用 。 谷歌 的 目 四 车、 搜索、 购物 、 广告 、 云 计算 等 产品 , 都 无 时 无 刻 不 在 利用 类 似 TensorFlow 
的 深度 学 习 算法 将 数据 的 价值 最 大 化 ， 从 而 创造 巨大 的 商业 价值 。 

TensorFlow 作为 一 个 开源 框架 ， 在 极 短 时 间 内 迅速 圈 粉 并 已 成 为 github.com 上 耀眼 的 
有 明星。 然而， 人 掌握 深度 学 习 需 要 较 强 的 理论 功底 ， 用 好 TensorFlow 又 需要 足够 的 实践 和 解 
析 。 开 源 项 目 和 代码 本 身 固然 重要 ， 但 更 重要 的 是 使 用 者 的 经 验 和 领域 知识 ， 以 及 如 何 将 
底层 技术 或 工具 采用 最 佳 实践 和 模式 来 解决 现实 问题 。 我 与 作者 共事 多 年 ， 浏 览 本 书后 深 
深 体会 到 该 作品 是 作者 在 谷歌 多 年 分 布 式 深度 学 习 实 践 经 验 和 其 理论 才学 的 浓缩 ， 也 相信 
这 本 从 六 门 到 高 级 实践 的 读物 能 够 为 每 个 读者 带 来 一 个 精神 盛 室 ， 并 帮助 计算 机 技术 从 业 
者 在 各 目的 业务 领域 打开 新 的 思路 、 插 上 新 的 翅膀 。 


张 夸 
杭州 才 云 科技 有 限 公司 联合 创始 人 CEO、Camegie Mellon University 计算 机 博士 
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推 芷 序 2 


自 2015 年 11 月 发 布 以 来 ,TensorFlow 在 GitHub 上 迅速 受到 广泛 关注 。TensorFlow 的 
一 个 突出 特点 ， 是 它 很 好 地 兼顾 了 学 术 研 究 和 工业 生产 的 不 同 需求 。 一 方面 ，TensorFlow 
的 灵活 性 使 得 研究 人 员 能 够 利用 它 快速 实现 最 新 的 模型 设计 ; 另 一 方面 ，TensorFlow 强大 
的 分 布 式 支持 ， 对 工业 界 在 海量 数据 集 上 进行 的 模型 训练 也 至 天 重要 。 

以 我 供职 的 谷歌 翻译 组 为 例 ， 在 研发 最 新 的 神经 网 络 翻译 模型 过 程 中 ， 我 们 既 需 要 快 
速 灵活 地 尝试 学 术 界 各 类 最 新 的 想法 ， 又 需要 成 熟 、 高 效 的 分 布 式 训练 系统 ， 以 便 在 十 亿 
句 量 级 的 训练 数据 上 训练 最 终 模型 。TensorFlow 的 特性 使 我 们 只 和 需 维护 一 套 人 代码， 就 能 够 
高 效 兼顾 这 两 方面 的 工作 。 模型 训练 完成 之 后 , 我 们 又 借助 TensorFlow 搭建 了 一 个 高 性 能 、 
低 延 迟 的 在 线 翻译 服务 。 目 前 谷歌 翻译 每 天 完成 大 约 千 亿 词 量 级 的 文字 翻译 任务 ， 其 中 超 
过 35% 是 通过 TensorFlow 进行 的 。 

TensorFlow 还 有 着 强大 的 可 移植 性 ， 支 持 GPU、CPU、 安 卓 、iOS 等 多 种 计算 平台 。 
受益 于 这 一 特性 ， 开 发 者 可 以 在 移动 平台 上 开发 复杂 的 深度 学 习 应 用 。 仍 以 翻译 为 例 ， 合 
歌 翻译 应 用 中 广 受 好 评 的 图 片 即时 翻译 功能 ， 就 是 依赖 于 移动 平台 上 的 TensorFlow， 使 用 
用 户 的 手机 本 地 完成 计算 的 。 这 一 功能 可 以 帮助 人 们 摆脱 语言 和 手机 网 络 的 约束 ， 更 加 目 
由 地 体验 全 球 各 地 的 风土 人 情 。 

谷歌 已 经 将 TensorFlow 大 规模 应 用 于 数 十 项 产品 的 研发 中 , 而 在 谷歌 以 外 ,TensorFlow 
也 逐渐 得 到 广泛 应 用 。 从 国内 的 小 米 、 京 东 ， 到 硅谷 的 Uber、Airbnb、Twitter 等 ， 都 已 经 
开始 采用 TensorFlow 进行 生产 实践 。 多 伦 多 大 学 、 加 州 大 学 伯克利 分 校 等 著名 高 校 ， 也 已 
经 将 TensorFlow 用 于 教学 当中 , 斯 坦 福 大 竺 更 是 专门 开设 了 “TensorFlow for Deep Learning 
Research” 课 程 ， 帮 助 学 生 深入 理解 这 一 深度 学 习 领 域 的 重要 工具 。 

作者 郑 泽 宇 是 我 的 多 年 好 友 ， 他 对 于 机 器 学 习 的 学 术 研 究 和 工业 应 用 方面 都 有 着 极 为 
丰富 的 经 验 。 这 本 教程 从 深入 浅 出 ， 涵 盖 了 深度 学 习 中 常见 算法 的 理论 基础 和 TensorFlow 
实现 两 方面 内 容 。 相 信 这 本 书 能 帮助 读者 在 最 短 时 间 内 理解 深度 学 习 并 熟练 应 用 
TensorFlow， 在 这 一 当前 极为 活跃 的 领域 展开 工程 实践 。 

深 博 文 
工程 师 ， 谷 歌 翻译 团队 
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推荐 序 3 


深度 学 习 带 来 的 技术 革命 波及 甚 广 ， 学 术 界 同样 早已 从 中 受益 ， 将 深度 学 习 广 泛 应 用 
到 各 个 学 科 领 域 。 深 度 学 习 源 自 “ 古 老 ” 的 神经 网 络 技术 ， 既 标志 着 传统 神经 网 络 的 卷 士 
重 来 ， 也 藉 由 AlphaGo 研 压 人 类 围棋 一 役 ， 开 司 了 AI 爆炸 式 发 展 的 大 幕 。 机 器 学 习 为 人 
工 智 能 指明 道路 ， 而 深度 学 习 则 让 机 器 学 习 真 正 落 地 。 作 为 高 等 教育 工作 者 ， 让 学 生 了 解 
和 跟 上 最 新 技术 发 展 的 意义 不 言 而 喻 。 而 深度 学 习 的 重要 性 ， 从 近来 国内 外 互联 网 巨 壁 对 
未 来 的 展望 中 可 见 端 倪 一 一 以 深度 学 习 照 滩 下 的 人 工 智能 技术 ， 毫 无 疑问 是 下 一 个 时 代 的 
主角 和 支柱 。 

然而 ， 目 前 深度 学 习 的 相关 资料 ， 尤 其 是 像 TensorFlow 这 种 引领 未 来 趋势 的 新 技术 的 
学 习 资料 ， 普 遍 存 在 明显 缺憾 。 

其 一 ， 中 文 资 料 非常 少 ， 而 且 信 息 零 散 、 不 成 系统 。 这 篇 文章 里 讲 一 个 算法 ， 那 个 博 
客 里 介绍 一 个 应 用 ， 很 难 让 学 生 形 成 一 个 完整 的 、 全 局 的 概念 体系 。 

其 二 ， 已 有 的 深度 学 习 资 料 大 多 偏重 理论 ， 对 概率 、 统 计 等 数学 功底 有 很 高 的 要 求 ， 
不 易 激 发 学 生 的 兴趣 。 

而 这 些 现存 问题 ， 也 正 是 我 对 泽 宇 这 部 著作 寄予 厚望 的 原因 一 一 这 是 一 本 非常 适合 高 
校 学 生 走 近 深度 学 习 的 入 门 读 物 。 因 为 它 从 实际 问题 出 发 ， 可 以 激发 读者 的 兴趣 ， 让 读者 
可 以 快速 而 直观 地 享受 到 解决 问题 的 成 就 感 。 同 时 ， 此 书 理论 与 实践 并 重 ， 既 介绍 了 深度 
学 习 的 基本 概念 ， 为 更 加 深入 地 研究 深度 学 习 葛 定 基础 ; 又 给 出 了 具体 的 TensorFlow 样 例 
代码 ， 让 读者 可 以 将 学 习 成 果 直 接 运 用 到 实践 中 。 

我 非常 相信 也 衷心 希望 ， 有志 参与 深度 学 习 未 来 大 潮 的 便便 学 子 , 能 凭借 此 书 更 快速 、 
更 扎实 地 开启 深度 学 习 之 旅 , 并 通过 TensorFlow 来 实现 深度 学 习 常 用 算法 , 从 而 登 堂 入 室 ， 
最 终 成 为 AI 的 真正 驾驭 者 。 


张 铭 
北京 大 学 信息 学 院 教授 
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“深度 学 习 ” 这 个 词 在 过 去 的 一 年 之 中 已 经 到 炸 了 媒体 、 技 术 博 客 甚至 朋友 较 。 这 也 许 
正 是 你 会 读 到 本 书 的 原因 之 一 。 数 十 年 来 ， 人 工 智 能 技术 虽 不 断 发 展 ， 但 像 深 度 学 习 这 样 
在 学 术 界 和 工业 界 缘 具 颠 履 性 的 技术 实在 是 十 年 难 遇 。 可 惜 的 是 ， 理 解 和 灵活 运用 深度 学 
习 并 不 容易 ， 尤 其 是 其 复杂 的 数学 模型 ， 让 不 少 感 兴趣 的 同学 “从 入 门 到 放弃 ”更 糟 糕 的 
是 ， 因 为 深度 学 习 技 术 的 飞速 发 展 ， 而 写 书 、 出 版 的 过 程 又 非常 复杂 ， 不 论 是 英文 还 是 中 
文 ， 都 很 难 找到 从 实战 出 发 的 深度 学 习 参 考 书 。 关 于 当前 最 新 最 火 的 深度 学 习 框 架 
TensorFlow 的 书籍 更 是 空缺 。 这 正 是 作者 在 工作 之 余 ， 熬 夜 写 这 本 书 的 动力 。 作 者 本 人 作 
为 一 枚 标准 码 农 、 创 业 党 ， 希 望 这 本 书 能 够 帮助 码 农 和 准 码 农 们 绕 过 深度 学 习 复 杂 的 数据 
公式 ， 通 过 本 书 的 大 量 样 例 代码 快速 上 手 深度 学 习 ， 解 决 工作 、 学 习 中 的 实际 问题 。 

2016 年 初 ， 作 者 和 小 伙伴 们 从 美国 谷歌 辞职 ， 回 到 祖国 杭州 联合 创办 了 才 云 科技 
(Caicloud.io), 为 企业 提供 人 工 智能 平台 和 解决 方案 , 在 作者 回国 之 初 ,很 多 企业 都 展示 出 
了 对 于 TensorFlow 浓厚 的 兴趣 。 然 而 在 深度 交流 之 后 ， 作 者 发 现 虽 然 TensorFlow 是 一 球 非 
常 容易 上 手 的 工具 ， 但 是 深度 学 习 的 技术 目前 并 不 是 每 一 个 企业 都 掌握 的 。 为 了 让 更 多 的 
个 人 和 企业 可 以 享受 到 深度 学 习 技术 带 来 的 福利 ， 作 者 与 电子 工业 出 版 社 的 张 春 雨 主编 一 
拍 即 合 ， 开 始 了 本 书 的 撰写 工作 。 

使 用 TensorFlow 实现 深度 学 习 是 本 书 重 点 介绍 的 对 象 。 本 书 将 从 TensorFlow 的 安装 开 
始 ， 逐 一 介绍 TensorFlow 的 基本 概念 、 使 用 TensorFlow 实现 全 连接 深层 神经 网 络 、 卷 积 神 
经 网 络 和 循环 神经 网 络 等 深度 学 习 算法 。 在 介绍 使 用 TensorFlow 实现 不 同 的 深度 学 习 算法 
的 同时 ， 作 者 也 深入 浅 出 地 介绍 了 这 些 深 度 学 习 算 法 背后 的 理论 ， 并 给 出 了 这 些 算法 可 以 
解决 的 具体 问题 。 在 本 书 中 ， 作 者 避 开 了 枯燥 复杂 的 数学 公式 ， 从 实际 问题 出 发 ， 在 实践 
中 介绍 深度 学 习 的 概念 和 TensorFlow 的 用 法 。 在 本 书 中 ,作者 还 介绍 了 TensorFlow 并 行 化 
输入 数据 处 理 流程 、TensorBoard 可 视 化 工具 以 及 带 GPU 的 分 布 式 TensorFlow 使 用 方法 。 

TensorFlow 是 一 个 飞速 发 展 的 工具 。 本 书 在 写作 时 最 新 的 版 本 为 0.9.0， 然 而 到 本 书 出 
版 时 ， 谷 歌 已 经 推出 了 TensorFlow 1.0.0。 为 了 让 广大 读者 更 好 地 理解 和 试用 书 中 的 样 例 代 
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中 


前 


码 ， 我 们 提供 了 一 个 公开 的 GitHub 代码 库 来 维护 不 同 TensorFlow 版 本 的 样 例 程 序 。 该 代 
码 库 的 网 址 为 https://github.com/caicloud/tensorflow-tutorial。 在 Caicloud 提供 的 TensorFlow 
镜像 cargo.caicloud.io/tensorflow/tensorflow:0.12.0 中 也 包含 了 本 书 的 样 例 代码 。 作 者 庄 心 地 
希望 各 位 读者 能 够 从 本 书 获 荔 ， 这 也 是 对 我 们 最 大 的 支持 和 鼓励 。 对 于 书 中 出 现 的 任何 错 
误 或 者 不 准确 的 地 方 ， 欢 迎 大 家 批评 指正 ， 并 发 送 邮 件 至 zeyu@caicloud.io。 

读者 也 可 登录 博文 视点 官网 http://www.broadview.com.cn 下 载 本 书 代 码 或 提交 勘误 信 
息 。 一 旦 勘误 信息 被 作者 或 编辑 确认 ， 即 可 获得 博文 视点 奖励 积分 ， 可 用 于 竞 换 电子 书 。 
读者 可 以 随时 浏览 图 书页 面 ， 查 看 已 发 布 的 勘误 信息 。 
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用 户 广 册 


轻松 注册 成 为 博文 视点 社区 用 户 (www.broadview.com.cn)， 您 即 可 享受 以 下 服务 。 

。 下 载 资源 ， 本 书 所 提供 的 示例 代码 及 资源 文件 均 可 在 【下 载 资 源 】 处 下 载 。 

。 提交 勘 误 : 您 对 书 中 内 容 的 修改 意见 可 在 【提交 勘误 】 处 提交 ， 帮 被 采纳 ， 将 获 赠 
博文 视点 社区 积分 〈 在 您 购买 电子 书 时 ， 积 分 可 用 来 抵 扣 相应 金额 )。 

e。 与 作者 交流 : 在 页 面 下 方 【 读 者 评论 】 处 留 下 您 的 疑问 或 观点 ， 与 作者 和 其 他 读者 
一 同学 习 交 流 。 


页 面 入 口 : http://www.broadview.com.cn/30959 
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第 1 章 深度 学 习 人 向 介 


随 着 AjphaGo 战胜 李 世 石 ,人 工 智能 和 深度 学 习 这 些 概 念 已 经 成 为 一 个 非常 火 的 话题 。 
谷歌 [Google)、 脸 书 (Facebook)， 百 度 、 阿 里 巴巴 等 一 系列 国内 外 大 公司 纷纷 对 外 公开 
宣布 了 人 工 智能 将 作为 他 们 下 一 个 战略 重心 。 在 类 似 AlphaGo、 无 人 驾驶 汽车 等 最 新 技术 
的 背后 ， 深 度 学 习 是 推动 这 些 技术 发 展 的 核心 力量 。“ 深 度 学 习 ” 是 本 书 的 核心 概念 。 通 过 
阅读 本 章 ， 读 者 将 从 多 个 角度 了 解 这 一 概念 。 人 工 智能 、 机 器 学 习 与 深度 学 习 这 几 个 关键 
词 时 常 出 现在 媒体 新 闻 中 ， 并 错误 地 被 认为 是 等 同 的 概念 。1.1 节 将 介绍 人 工 智能 、 机 器 学 
习 以 及 深度 学 习 的 概念 ， 并 着 重 解 析 它 们 之 间 的 关系 。 这 一 节 将 从 不 同 领域 需要 解决 的 问 
题 入 手 ， 依 次 介绍 这 些 领 域 的 基本 概念 以 及 解决 领域 内 问题 的 主要 思路 。 在 介绍 完 深 度 学 
习 基 本 的 概念 之 后 ，1.2 节 将 完整 地 介绍 深度 学 习 发 展 史 。 虽 然 “ 深 度 学 习 ” 这 个 名 词 是 在 
最 近 几 年 才 提 出 ， 但 深度 学 习 基 于 的 神经 网 络 算法 却 早 在 20 世纪 40 年 代 就 出 现 了 。 这 一 
节 将 会 介绍 神经 网 络 发 展 过 程 中 的 重大 事件 ， 并 介绍 深度 学 习 研 究 领域 的 发 展 历程 。 

接着 ，1.3 节 将 从 计算 机 视觉 、 语 音 识别 、 上 自然 语言 处 理 和 人 机 博弈 四 个 不 同 的 方向 介 
绍 目前 深度 学 习 的 应 用 。 从 2012 年 深度 学 习 被 成 功 应 用 于 图 像 识 别 问题 以 来 ， 研究 人 员 一 
直 在 扩展 它 的 应 用 范围 和 影响 力 。 这 一 节 既 会 介绍 在 不 同方 向 上 深度 学 习 在 学 术 界 取得 的 
成 就 ， 也 会 介绍 工业 界 成 功 应 用 深度 学 习 的 案例 。 最 后 ，1.4 节 将 引出 本 书 的 重点 一 一 
TensorFlow。TensorFlow 是 谷歌 开源 的 一 个 计算 框架 ， 该 计算 框架 可 以 很 好 地 实现 各 种 深 
度 学 习 算 法 。 这 一 节 将 简单 介绍 TensorFlow 的 特性 以 及 它 目 前 的 应 用 场景 。 也 将 对 比 不 同 
的 开源 深度 学 习 工 具 ， 并 通过 有 具体 的 数字 来 说 明 TensorFlow 相 比 其 他 工具 的 优势 以 及 作者 
将 TensorFlow 作为 本 书 介绍 对 象 的 原因 。 
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TensorFlow: 实战 Google 深度 学 习 框 架 
1.1 人 工 智能 、 机 器 学 习 与 深度 学 习 ” 


从 计算 机 发 明之 初 ， 人 们 就 希望 它 能 够 帮助 甚至 代 蔡 人 类 完成 重复 性 大作 。 利 用 巨大 
的 存储 空间 和 超 高 的 运算 速度 ， 计 算 机 已 经 可 以 非常 轻易 地 完成 一 些 对 于 人 类 非常 困难 ， 
但 对 计算 机 相对 简单 的 问题 。 比 如 ， 统 计 一 本 书 中 不 同 单词 出 现 的 次 数 ， 存 储 一 个 图 书馆 
中 所 有 的 藏书 ， 或 是 计算 非常 复杂 的 数学 公式 ， 都 可 以 轻松 通过 计算 机 解决 。 然 而 ， 一 些 
人 类 通过 直觉 可 以 很 快 解决 的 问题 ， 目 前 却 很 难 通过 计算 机 解决 。 这 些 问 题 包括 目 然 语 言 
理解 、 图 像 识 别 、 语 音 识 别 ， 等 等 。 而 它们 就 是 人 工 智能 需要 解决 的 问题 。 

计算 机 要 像 人 类 一 样 完成 更 多 智能 的 工作 ， 需 要 掌握 关于 这 个 世界 海量 的 知识 。 比 如 
要 实现 汽车 自动 驾驶 ， 计 算 机 人 至少 需 要 能 够 判断 哪里 是 路 ， 哪 里 是 障碍 物 。 这 个 对 人 类 非 
常 直观 的 东西 ， 但 对 计算 机 却 是 相当 困难 的 。 路 有 水 泥 的 、 沥 青 的 ， 也 有 石子 的 甚至 土路 。 
这 些 不 同 材 质 铺 成 的 路 在 计算 机 看 来 差距 非常 大 。 如 何 让 计算 机 掌握 这 些 人 头 看 起 来 非 和 
直观 的 常识 ， 对 于 人 工 智能 的 发 展 是 一 个 巨大 的 挑战 。 很 多 早期 的 人 工 智 能 系统 只 能 成 功 
应 用 于 相对 特定 的 环境 (specific domain)， 在 这 些 特定 环境 下 ， 计 算 机 需要 了 解 的 知识 很 
容易 被 严格 并 且 完 整地 定义 。 例 如 ，IBM 的 深蓝 (Deep Blue) 在 1997 年 打败 了 国际 象棋 
冠军 卡 斯 帕 罗 夫 。 设 计 出 下 象棋 软件 是 人 工 智 能 史上 的 重大 成 就 ， 但 其 主要 挑战 不 在 于 让 
计算 机 掌握 国际 象棋 中 的 规则 。 国 际 象棋 是 一 个 特定 的 环境 ， 在 这 个 环境 中 ， 计 算 机 上 内需 
要 了 解 每 一 个 棋子 规定 的 行动 范围 和 行动 方法 即 可 。 虽然 计 算 机 早 在 1997 年 就 可 以 击败 国 
际 象棋 的 世界 冠军 , 但 是 直到 20 年 后 的 今天 ， 让 计算 机 实现 大 部 分 成 年 人 都 可 以 完成 的 汽 
车 驾驶 却 仍然 依旧 十 分 困难 。 

为 了 使 计算 机 更 多 地 掌握 开放 环境 (open domain) 下 的 知识 ， 研 究 人 员 进 行 了 很 多 笠 
试 。 其 中 一 个 影响 力 非常 大 的 领域 是 知识 图 库 (Ontology”)。WordNet 是 在 开放 环境 中 建 
立 的 一 个 较 大 且 有 影响 力 的 知识 图 库 。WordNet 是 由 普林斯顿 大 学 (Princeton University ) 
的 George Armitage Miller 教授 和 Christiane Fellbaum 教授 带领 开发 的 ， 它 将 155287 个 单词 
整理 为 了 117659 个 近义词 集 (synsets)。 基 于 这 些 近 义 词 集 ，WordNet 进一步 定义 了 近 义 
词 集 之 间 的 关系 。 比 如 同义词 集 “ 狗 ”属于 同义词 集 “ 犬 科 动 物 ”， 他 们 之 间 存 在 种 属 关 系 
(hypernyms/hyponyms)“。 除 了 WordNet， 也 有 不 少 研究 人 员 尝 试 将 Wikipedia 中 的 知识 整 
理 成 知识 图 库 。 谷 歌 的 知识 图 库 就 是 基于 Wikipedia 创建 的 。 


@ 本 节 部 分 内 容 参见 : Goodfellow I, Bengio Y, Courville A. Deep learning [M]. The MIT Press,2016. 

G@ 知识 图 库 Ontology 有 时 又 被 称 为 Knowledge Graph。 Knowledge Graph 更 多 的 是 指 代 谷歌 内 部 建立 的 知 
识 图 库 ， 而 Ontology 更 多 指 代 的 是 知识 图 库 这 个 学 术 领 域 。 

@) 更 多 关于 WordNet 的 信息 可 以 参考 其 官方 网 站 : https://wordnet.princeton.edu/。 
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虽然 使 用 知识 图 库 可 以 让 计算 机 很 好 地 掌握 人 工 定义 的 知识 ， 但 建立 知识 图 库 一 方面 
需要 花费 大 量 的 人 力 物力 ， 另 一 方面 可 以 通过 知识 图 库 方式 明确 定义 的 知识 有 限 ， 不 是 所 
有 的 知识 都 可 以 明确 地 定义 成 计算 机 可 以 理解 的 固定 格式 。 很 大 一 部 分 无 法 明确 定义 的 知 
识 ， 就 是 人 类 的 经 验 。 比 如 我 们 需要 判断 一 封 邮 件 是 否 为 垃圾 邮件 ， 会 综合 考虑 邮件 发 出 
的 地 址 、 邮 件 的 标题 、 邮 件 的 内 容 以 及 邮件 收 件 人 的 长 度 ， 等 等 。 这 是 收 到 无 数 垃圾 邮件 
双 扰 之 后 总 结 出 来 的 经 验 。 这 个 经 验 很 难以 轿 定 的 方式 表达 出 来 ， 而 且 不 同人 对 垃圾 邮件 
的 判断 也 会 不 一 样 。 如 何 让 计算 机 可 以 跟 人 类 一 样 从 历史 的 经 验 中 获取 新 的 知识 呢 ? 这 就 
是 机 器 学 习 和 需要 解决 的 问题 。 

卡 内 基 梅 隆 大 学 (Carnegie Mellon University) 的 Tom Michael Mitchell 教授 在 1997 年 
出 版 的 书籍 Machine Learnine* 中 对 机 器 学 习 进 行 过 非常 专业 的 定义 ， 这 个 定义 在 学 术 界 内 
被 多 次 引用 。 在 这 本 书 中 对 机 器 学 习 的 定义 为 “如 果 一 个 程序 可 以 在 任务 T 上 ， 随 着 经 验 
E 的 增加 ; 效果 P 了 也 可 以 随 之 增加 ， 则 称 这 个 程序 可 以 从 经 验 中 学 习 ”。 通过 垃圾 邮件 分 类 
的 问题 来 解释 机 器 学 习 的 定义 。 在 垃圾 邮件 分 类 问题 中 ,“ 一 个 程序 ” 指 的 是 需要 用 到 的 机 
器 学 习 算 法 ， 比 如 人 远 辑 回归 算法 ;“ 任 务 T” 是 指 区 分 垃圾 邮件 的 任务 ;“ 经 验 E” 为 已 经 
区 分 过 是 否 为 垃圾 邮件 的 历史 邮件 ， 在 监督 式 机 器 学 习 问 题 中 ， 这 也 被 称 之 为 训练 数据 ; 
“效果 P” 为 机 器 学 习 算 法 在 区 分 是 否 为 垃圾 邮件 任务 上 的 正确 率 。 

在 使 用 逻辑 回归 算法 解决 垃圾 邮件 分 类 问题 时 ， 会 先 从 每 一 封 邮件 中 抽取 对 分 类 结果 
可 能 有 影响 的 因素 ， 比 如 说 上 文 提 到 的 发 邮件 的 地 址 、 邮 和 件 的 标题 及 收 件 人 的 长 度 ， 等 等 。 
每 一 个 因素 被 称 之 为 一 个 特征 〈feature)。 逐 辑 回 归 算 法 可 以 从 训练 数据 中 计算 出 每 个 特征 
和 预测 结果 的 相关 度 。 比 如 在 垃圾 邮件 分 类 问题 中 ， 可 能 会 发 现 如 果 一 个 邮件 的 收 件 人 越 
多 ， 那 么 邮件 为 垃圾 邮件 的 概率 也 就 越 高 。 在 对 一 封 未 知 的 邮件 做 判断 时 ， 逻 辑 回 归 算 法 
会 根据 从 这 封 邮 件 中 抽取 得 到 的 每 一 个 特征 以 及 这 些 特征 和 垃圾 邮件 的 相关 度 来 判断 这 封 
邮件 是 否 为 垃圾 邮件 。 

在 大 部 分 情况 下 ， 在 训练 数据 达到 一 定数 量 之 前 ， 越 多 的 训练 数据 可 以 使 逻辑 回归 算 
法 对 未 知 邮件 做 出 的 判断 越 精 准 。 也 就 是 说 逻辑 回归 算法 可 以 根据 训练 数据 (经验 E) 提 
高 在 垃圾 邮件 分 类 问题 《任务 T) 上 的 正确 率 (效果 P)。 之 所 以 说 在 大 部 分 情况 下 ， 是 
因为 逻辑 回归 算法 的 效果 除了 依赖 于 训练 数据 ， 也 依赖 于 从 数据 中 提取 的 特征 。 假 设 从 
邮件 中 抽取 的 特征 只 有 邮件 发 送 的 时 间 ， 那 么 即使 有 再 多 的 训练 数据 ， 逮 辑 回 妇 算 法 也 
无 法 很 好 地 利用 。 这 是 因为 邮件 发 送 的 时 间 和 邮件 是 否 为 垃圾 邮件 之 间 的 关联 不 大 ， 而 逻 
辑 回 归 算 法 无 法 从 数据 中 习 得 更 好 的 特征 表达 。 这 也 是 很 多 传统 机 器 学 习 算法 的 一 个 共同 
的 问题 。 


Q) Mitchell T™M. Carbonell JG Michalski RS. Machine Learning [M]. McGraw-Hill, 2003， 
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类 似 从 邮件 中 提取 特征 ， 如 何 数 字 化 地 表达 现实 世界 中 的 实体 ， 一直 是 计算 机 科学 中 
一 个 非常 重要 问题 。 如 果 将 图 书馆 中 的 图 书 名 称 储存 为 结构 化 的 数据 ， 比 如 储存 在 Excel 
表格 中 ， 那 么 可 以 非常 容易 地 通过 书 名 查询 一 本 书 是 否 在 图 书馆 中 。 如 果 图 书 的 书 名 都 是 
存在 非 结构 化 的 图 片 中 ， 那 么 要 完成 书 名 查找 任务 的 难度 将 大 大 增加 。 类 似 的 道理 ， 如 何 
从 实体 中 提取 特征 ， 对 于 很 多 传统 机 器 学 习 算 法 的 性 能 有 巨大 影响 。 图 1-1 展示 了 一 个 简 
单 的 例子 。 如 果 通 过 笛 卡 尔 坐 标 系 〈cartesian coordinates) 来 表示 数据 ， 那 么 不 同 颜色 的 结 
点 无 法 被 一 条 直线 划分 。 如 果 将 这 些 点 映射 到 极 和 角 坐 标 系 (Polar coordinates)， 那 么 使 用 直 
线 划 分 就 很 容易 了 。 同 样 的 数据 使 用 不 同 的 表达 方式 会 极 大 地 影响 解决 问题 的 难度 。 一 旦 


解决 了 数据 表达 和 特征 提取 ， 很 多 人 工 智 能 任务 也 就 解决 了 90%。 
负 卡尔 弘 标 系 极 角 坐 标 系 





1-1 不 同 的 数据 表达 对 使 用 直线 划分 不 同 颜色 结 点 的 难度 影响 


然而 ， 对 许多 机 器 学 习 问 题 来 说 ， 特 征 提取 不 是 一 件 简单 的 事情 。 在 一 些 复 杂 问 题 上 ， 
要 通过 人 工 的 方式 设计 有 效 的 特征 集合 ， 需 要 很 多 的 时 间 和 精力 ， 有 时 甚至 需要 整个 领域 
数 十 年 的 研究 投入 。 例 如 ， 假 设想 从 很 多 照片 中 识别 汽车 。 现 在 已 知 的 是 汽车 有 轮子 ， 所 
以 希望 在 图 片 中 抽取 “图 片 中 是 否 出 现 了 轮子 ”这 个 特征 。 但 实际 上 ， 要 从 图 片 的 像素 中 
描述 一 个 轮子 的 模式 是 非常 难 的 。 虽 然 车 轮 的 形状 很 简单 ， 但 在 实际 图 片 中 ， 车 轮 上 可 能 
会 有 来 自 车 身 的 阴影 、 金 属 车 轴 的 反光 ， 周 围 物 品 也 可 能 会 部 分 遗 挡 车轮。 实际 图 片 中 各 
种 不 确定 的 因素 让 我 们 很 难 直 接 抽取 这 样 的 特征 。 

既然 人 工 的 方式 无 法 很 好 地 抽取 实体 中 的 特征 ， 那 么 是 否 有 上 自动 的 方式 呢 ? 答案 是 肯 
定 的 。 深 度 学 习 解 决 的 核心 问题 之 一 就 是 自动 地 将 简单 的 特征 组 合成 更 加 复杂 的 特征 ， 并 
使 用 这 些 组 合 特征 解决 问题 。 深 度 学 习 是 机 器 学 习 的 一 个 分 支 ， 它 除了 可 以 学 习 特 征 和 任 
务 之 间 的 关联 以 外 ， 还 能 自动 从 简单 特征 中 提取 更 加 复杂 的 特征 。 图 1-2 中 展示 了 深度 学 
习 和 传统 机 器 学 习 在 流程 上 的 差异 。 如 图 1-2 所 示 ， 深 度 学 习 算法 可 以 从 数据 中 学 习 更 加 
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复杂 的 特征 表达 ， 使 得 最 后 一 步 权重 学 习 变 得 更 加 简单 且 有 效 。 在 图 1-3 中 ， 展 示 了 通过 
深度 学 习 解 决 图 像 分 类 问题 的 具体 样 例 。 深 度 学 习 可 以 一 层 一 层 地 将 简单 特征 逐步 转化 成 
更 加 复杂 的 特征 ， 从 而 使 得 不 同类 别 的 图 像 更 加 可 分 。 比 如 图 1-3 中 展示 了 深度 学 习 算 法 
可 以 从 图 像 的 像素 特征 中 逐渐 组 合 出 线条 、 边 、 角 、 简 单 形状 、 复 杂 形 状 等 更 加 有 效 的 复 
杂 特 征 。 


传统 机 器 学 习 算法 | x | | | Ea > | 预测 结果 
深度 学 习 算法 本 本 已 ee D Tj D| 预测 结果 


1-2 传统 机 器 学 习 和 深度 学 习 流 程 对 比 








基础 特征 : 图 片 像素 第 一 层 : 线条 。 ”第 二 层 : 简单 形状 。 第 三 层 ， 复杂 形状 
1-3 ”深度 学 习 在 图 像 分 类 问题 上 的 算法 流程 样 例 


早期 的 深度 学 习 受 到 了 神经 科学 的 启发 ， 它 们 之 间 有 非常 密切 的 联系 。 科 学 家 们 在 神 
经 科学 上 的 发 现 使 得 我 们 相信 深度 学 习 可 以 胜任 很 多 人 工 智 能 的 任务 。 神 经 科学 家 发 现 ， 
如 果 将 小 白鼠 的 视觉 神经 连接 到 听觉 中 枢 , 一 段 时 间 之 后 小 鼠 可 以 习 得 使 用 听觉 中 枢 “ 看 ” 
世界 。 这 说 明 虽 然 哺 乳 动 物 大 脑 分 为 了 很 多 区 域 ， 但 这 些 区 域 的 学 习 机 制 却 是 相似 的 。 在 
这 一 假想 得 到 验证 之 前 ， 机 器 学 习 的 研究 者 们 通常 会 为 不 同 的 任务 设计 不 同 的 算法 。 而 且 
直到 今天 , 学 术 机 构 的 机 器 学 习 领 域 也 被 分 为 了 自然 语言 处 理 、 计 算 机 视觉 和 语音 识别 等 
不 同 的 实验 室 。 因 为 深度 学 习 的 通用 性 ， 深 度 学 习 的 研究 者 往往 可 以 跨越 多 个 研究 方 问 
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甚至 同时 活跃 于 所 有 的 研究 方向 。 下 面 的 1.3 节 将 具体 介绍 深度 学 习 在 不 同方 网 的 应 用 。 

虽然 深度 学 习 领 域 的 研究 人 员 相 比 其 他 机 器 学 习 领 域 更 多 地 受到 了 大 脑 工 作 原 理 的 局 
发 ， 而 且 媒 体 界 也 经 常 强调 深度 学 习 算 法 和 大 脑 工 作 原 理 的 相似 性 ， 但 现代 深度 学 习 的 友 
展 并 不 拘泥 于 模拟 人 脑 神经 元 和 人 脑 的 工作 机 理 。 模 拟人 类 大 脑 也 不 再 是 深度 学 习 研 究 的 
主导 方向 。 我 们 不 应 该 认为 深度 学 习 是 在 试图 模仿 人 类 大 脑 。 目 前 科学 家 对 人 类 大 脑 学 习 
机 制 的 理解 还 不 足以 为 当下 的 深度 学 习 模 型 提供 指导 。 

现代 的 深度 学 习 已 经 超越 了 神经 科学 观点 ， 它 可 以 更 广泛 地 适用 于 各 种 并 不 是 由 神经 
网 络 启发 而 来 的 机 器 学 习 框 架 。 值 得 注意 的 是 ， 有 一 个 领域 的 研究 者 试图 从 算法 层 理解 大 
脑 的 工作 机 制 ， 它 不 同 于 深度 学 习 的 领域 ,被 称 为 “计算 神经 学 ”( computational 
neuroscience )。 深 度 学 习 领 域 主要 关注 如 何 搭建 智能 的 计算 机 系统 ， 解 决 人 工 智能 中 志 到 
的 问题 。 计 算 神 经 学 则 主要 关注 如 何 建立 更 准确 的 模型 来 模拟 人 类 大 脑 的 工作 。 

总 的 来 说 ， 人 工 智 能 、 机 器 学 习 和 深度 学 习 是 非常 相关 的 几 个 领域 。 图 1-4 总 结 了 它 
们 之 间 的 关系 。 人 工 智能 是 一 类 非常 广泛 的 问题 ， 机 器 学 习 是 解决 这 类 问题 的 一 个 重要 手 
段 。 深 度 学 习 则 是 机 器 学 习 的 一 个 分 文 。 在 很 多 人 工 智 能 问题 上 上， 深度 学 习 的 方法 突破 了 
传统 机 器 学 习 方 法 的 瓶颈 ， 推 动 了 人 工 智 能 领域 的 发 展 。 





图 1-4 人 工 智能 、 机 器 学 习 以 及 深度 学 习 之 间 的 关系 图 
1.2 深 度 学 习 的 发 展 历程 


很 多 读者 可 能 会 认为 深度 学 习 是 一 门 新 技术 ， 所 以 昕 到 “深度 学 习 的 历史 ”也 许 会 有 
些 惊讶 。 事 实 上 ， 目 前 大 家 所 熟知 的 “深度 学 习 ” 基 本 上 是 深层 神经 网 络 的 一 个 代名词 ， 
而 神经 网 络 技术 可 以 退 溯 到 1943 年 。 深 度 学 习 之 所 以 看 起 来 像 是 一 门 新 技术 , 一 个 很 重要 
的 原因 是 它 在 21 世纪 初期 并 不 流行 。 神 经 网 络 的 发 展 史 大 致 可 以 分 为 三 个 阶段 , 在 本 节 中 ， 
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我 们 将 简单 介绍 神经 网 络 发 展 历史 上 的 这 三 个 阶段 。 

早期 的 神经 网 络 模型 类 似 于 仿生 机 器 学 习 ， 它 试图 模仿 大 脑 的 学 习 机 理 。 最 早 的 神经 
网 络 数 学 模型 是 由 Warren McCulloch 教授 和 Walter Pitts 教授 于 1943 年 在 论文 4 logical 
calculus of the ideas immanent in nervous activity" 中 提出 的 。 在 论文 中 , Warren McCulloch 教 
授 和 Walter Pitts 教授 模拟 人 类 大 脑 神经 元 的 结构 提出 了 McCulloch-Pitts Neuron 的 计算 结 
构 。 图 1-5 对 比 了 人 类 神经 元 结构 和 McCulloch-Pitts Neuron 结构 。McCulloch-Pitts Neuron 
结构 大 致 模拟 了 人 类 神经 元 的 工作 原理 ， 它 们 都 有 一 些 输入 ， 然 后 将 输入 进行 一 些 变换 后 
得 到 输出 结果 。 虽 然 人 类 神经 元 处 理 输入 信号 的 原理 目前 还 对 我 们 来 说 还 不 是 完全 清晰 ， 
但 McCulloch-Pitts Neuron 结构 使 用 了 简单 的 线性 加 权 和 的 方式 来 模拟 这 个 变换 , 将 nr 个 输 
入 值 提供 给 MeCulloch-Pitts Neuron 结构 后 ，MeCulloch-Pitts Neuron 结构 会 通过 nn 个 权重 
Wt，Wz,…Wn 来 计算 这 个 输入 的 加 权 和 ， 然 后 用 这 个 加 权 和 经 过 一 个 立 值 函数 得 到 一 个 0 
或 1 的 输出 。 





(a) 人 类 神经 元 结构 (b》McCulloch-Pitts Neuron 结构 
1-5 人 类 神经 元 结构 和 McCulloch-Pitts Neuron 结构 对 比 图 


举 一 个 具体 的 例子 来 说 明 MeCulloch-Pitts Neuron 结构 是 如 何 解决 实际 问题 的 。 假设 笑 
要 解决 的 问题 是 判断 邮件 是 否 为 垃圾 邮件 ， 那 么 首先 可 以 将 从 邮件 里 提取 的 n 个 特征 值 作 
为 输入 传 入 McCulloch-Pitts Neuron 结构 。 McCulloch-Pitts Neuron 结构 经 过 加 权 和 及 阅 值 函 
数 处 理 可 以 得 到 一 个 0 或 者 1 的 输出 。 如 果 这 个 输出 为 0， 那么 相应 的 邮件 为 垃圾 邮件 ; 
相反 ， 如 果 这 个 输出 为 1， 那么 相应 的 邮件 不 是 垃圾 邮件 。 

为 了 使 这 种 方法 可 以 精确 地 判断 垃圾 邮件 , 我 们 需要 对 McCulloch-Pitts Neuron 结构 中 
的 权重 进行 特殊 的 设置 。 手 动 设置 这 些 权重 上 自然 是 一 种 选择 ， 但 通过 人 类 经 验 设置 权重 的 
方式 既 麻烦 又 很 难 达 到 最 优 的 效果 。 为 了 让 计算 机 能 够 更 加 自动 且 更 加 合理 地 设置 权重 大 
小 ，Frank Rosenblatt 教授 于 1958 年 提出 了 感知 机 模型 (perceptron)。 感 知 机 是 首 个 可 以 根 
据 样 例 数据 来 学 习 特 征 权 重 的 模型 。 虽然 MeCulloch-Pitts Neuron 结构 和 感知 机 模型 极 大 地 


四 MeCulloch W, Pitts W. 4 Logical Calculus of the Ideas Immanent in Nervous Activity [J], Bulletin of 
Mathematical Biophysics Vol 5, 1943. 
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影响 了 现代 机 器 学 习 ， 但 是 它们 也 存在 非常 大 的 局 限 性 。 

1969 年 由 Marvin Minsky 教授 和 Seymour Papert 教授 出 版 的 Perceptrons: An Introduction 
to Computational Geometry 一 书 中 , 证 明了 感知 机 模型 只 能 解决 线性 可 分 问题 ， 第 4 章 中 将 
会 更 加 详细 地 介绍 线性 模型 、 线 性 可 分 问题 。 并 明确 指出 了 感知 机 无 法 解决 异 或 问题 。 而 
且 书 中 也 指出 在 当时 的 计算 能 力 下 ， 实 现 多 层 的 神经 网 络 是 不 可 能 的 事情 。 这 些 局 限 性 寻 
致 了 整个 学 术 界 对 生物 启发 的 机 器 学 习 模 型 的 择 击 。 在 书 中 ,Marvin Minsky 教授 和 Seymour 
Papert 教授 甚至 做 出 了 “基于 感知 机 的 研究 注定 将 失败 ”的 结论 。 这 导致 了 神经 网 络 的 第 
一 次 重大 低潮 期 ， 在 之 后 的 十 多 年 内 ， 基 于 神经 网 络 的 研究 几乎 处 于 停 沛 状态 。 

直到 20 世纪 80 年 代 末 ， 第 二 波 神 经 网 络 研究 因 分 布 式 知识 表达 (distributed 
representation ) 和 神经 网 络 反 向 传播 算法 的 提出 而 兴起 。 分 布 式 的 知识 表达 的 核心 思想 是 
现实 世界 中 的 知识 和 概念 应 该 通过 多 个 神经 元 (neuron) 来 表达 ， 而 模型 中 的 每 一 个 神经 
元 也 应 该 参与 表达 多 个 概念 。 例 如 ,假设 要 设计 一 个 系统 来 识别 不 同 颜色 不 同型 号 的 汽车 ， 
那么 可 以 有 两 种 方法 。 第 一 种 方法 是 设计 一 个 模型 使 得 模型 中 每 一 个 神经 元 对 应 一 种 颜色 
和 汽车 型 号 的 组 合 ， 比 如 “白色 的 小 轿车 ”。 如 果 有 n 种 颜色 ，m 种 型 号 ， 那 么 这 样 的 表达 
方式 需要 nxm 个 神经 元 。 男 一 种 方法 是 使 用 一 些 神 经 元 专门 表达 颜色 ， 比 如 “白色” 田 
外 一 些 神经 元 专门 表达 汽车 型 号 ， 比 如 “小 轿车 ”这 样 “白色 的 小 轿车 ”的 概念 可 以 通过 
这 两 个 神经 元 的 组 合 来 表达 。 这 种 方式 只 需要 n+m 个 神经 元 就 可 以 表达 所 有 概念 。 而 且 即 
使 在 训练 数据 中 没有 出 现 概念 “红色 的 卡车 ”只 要 模型 能 够 习 得 “红色 ”和 “卡车 ”的 概 
念 ， 它 也 可 以 推广 到 概念 “红色 的 卡车 ” 分 布 式 知识 表达 大 大 加 强 了 模型 的 表达 能 力 ， 让 
神经 网 络 从 宽度 的 方向 走向 了 深度 的 方 同 。 这 为 之 后 的 深度 学 习 莫 定 了 基础 。 在 第 4 章 中 
将 通过 具体 的 样 例 来 说 明 深 层 的 神经 网 络 是 可 以 很 好 地 解决 类 似 异 或 问题 等 线性 不 可 分 问 
题 的 。 

除了 解决 了 线性 不 可 分 问题 ， 在 20 世纪 80 年 代 末 ， 研 究 人 员 在 降低 训练 神经 网 络 的 
计算 复杂 度 上 也 取得 了 突破 性 成 就 。David Everett Rumelhart 教授 、Geoffrey Everest Hinton 
教授 和 Ronald J. Williams 教授 于 1986 年 在 目 然 杂 志 上 友 表 的 Learning Representations by 
Back-propagating errors 文章 中 首次 提出 了 反 向 传播 的 算法 (back propagation)， 此 算法 大 幅 
降低 了 训练 神经 网 络 所 需要 的 时 间 。 直 到 今天 ， 反 加 传播 算法 仍然 是 训练 神经 网 络 的 主要 
方法 。 在 神经 网 络 训 练 算法 改进 的 同时 ， 计 算 机 的 飞速 发 展 也 使 得 80 年 代 末 的 计算 能 力 相 
比 70 年 代 有 了 突飞猛进 的 增长 。 于 是 神经 网 络 在 80 年 末 到 90 年 代 初 又 迎 来 了 发 展 的 高 峰 
期 。 如 今 使 用 得 比较 多 的 一 些 神经 网 络 结 构 ， 比 如 卷 积 神经 网 络 和 循环 神经 网 络 ， 在 这 上 段 
时 间 都 得 到 了 很 好 的 发 展 。Sepp Hochreiter 教授 和 Juergen Schmidhuber 教授 于 1991 年 提出 
的 LSTM 模型 (long short-term memory) 可 以 有 效 地 对 较 长 的 序列 进行 建 模 ， 比 如 一 句 话 
或 者 一 段 文 章 。 直 到 今天 ，LSTM 都 是 解决 很 多 自然 语言 处 理 、 机 器 翻译 、 语 音 识 别 、 时 序 
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预测 等 问题 最 有 效 的 方法 。 在 第 8 章 中 将 更 加 详细 地 介绍 循环 神经 网 络 和 LSTM 模型 。 

然而 ， 在 神经 网 络 发 展 的 同时 ,传统 的 机 器 学 习 算 法 也 有 了 突破 性 的 进展 ， 并 在 90 年 
代 末 逐步 超越 了 神经 网 络 ， 成 为 当时 机 器 学 习 领域 最 常用 的 方法 。 以 手写 体 识别 为 例 ， 在 
1998 年 ， 使 用 支持 疝 量 机 (support vector machine〉 的 算法 可 以 把 错误 率 降低 到 0.8%。 这 
样 的 精确 度 是 当时 的 神经 网 络 无 法 达到 的 。 导 致 这 种 情况 主要 有 两 个 原因 。 首 先 ， 虽 然 训 
练 神经 网 络 的 算法 得 到 了 改进 ， 但 在 当时 的 计算 资源 下 ， 要 训练 深层 的 神经 网 络 仍然 是 非 
和 困难 的 。 其 次 ， 当 时 的 数据 量 比较 小 ， 无 法 满足 训练 深层 神经 网 络 的 需求 。 

随 着 计算 机 性 能 的 进一步 提高 ， 以 及 云 计 算 、GPU 的 出 现 ， 到 2010 年 左右 ， 计 算 量 
己 经 不 再 是 阻碍 神经 网 络 发 展 的 问题 。 与 此 同时 ， 随 着 互联 网 + 的 发 展 ， 获 取 海 量 数据 也 不 
再 困难 。 这 让 神经 网 络 所 面临 的 几 个 最 大 问题 都 得 到 解决 ， 于 是 神经 网 络 的 发 展 也 迎 来 了 
新 的 高 潮 。 在 2012 年 InageNet 举办 的 图 像 分 类 竞赛 (ImageNet Large Scale Visual 
Recognition Challenge, ILSVRC) 中 ,由 Alex Krizhevsky 教授 实现 的 深度 学 习 系 统 AlexNet 
说 得 了 冠军 。 自 此 之 后 ， 深 度 学 习 〈(deep learning) 作为 深层 神经 网 络 的 代名词 被 大 家 所 熟 
知 。 深 度 学 习 的 发 展 也 开局 了 一 个 AI 的 新 时 代 。 图 1-6 展示 了 “deep learning” 这 个 词 在 
最 近 十 年 谷歌 搜索 的 热度 趋势 。 从 图 中 可 以 看 出 ， 从 2012 年 之 后 ,深度 学 习 的 热度 呈 指 数 
级 上 升 ， 到 2016 年 时 ， 深 度 学 习 已 经 成 为 了 谷歌 上 最 热门 的 搜索 词 。 在 2013 年 ， 深 度 学 
习 被 麻 省 理工 (MIT) 评 为 了 年 度 十 大 科技 突破 之 一 "。 如 今 ， 深 度 学 习 已 经 从 最 初 的 图 像 
识别 领域 扩展 到 了 机 器 学 习 的 各 个 领域 。 下 面 的 1.3 节 将 具体 介绍 目前 深度 学 习 在 一 些 主 
要 人 工 智能 领域 的 应 用 。 
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图 1-6 “deep learning” 最 近 十 年 在 谷歌 搜索 的 热度 趋势 


(此 图 片 基 于 于 谷歌 趋势 : https:Wwww.google.comy/trends/， 词 汇 的 热度 按 0-100 分 为 100 个 等 级 : 
0 表示 最 低 的 热度 ，100 表示 最 流行 的 搜索 词 ) 


Q) 具体 报道 参见 : https://www.technologyreview.com/lists/technologies/2013/。 
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1.3 ”深度 学 习 的 应 用 


深度 学 习 最 早 兴 起 于 图 像 识 别 ， 但 是 在 短 短 几 年 时 间 内 ， 深 度 学 习 推广 到 了 机 器 学 习 
的 各 个 领域 。 如 今 ， 深 度 学 习 在 很 多 机 器 学 习 领 域 都 有 非常 出 色 的 表现 ， 在 图 像 识 别 、 语 
音 识别 、 音 频 处 理 、 自 然 语言 处 理 、 机 器 人 、 生 物 信息 处 理 、 化 学 、 电 脑 游 戏 、 搜 索引 擎 、 
网 络 广告 投放 、 医 学 自动 诊断 和 金融 等 各 大 领域 均 有 应 用 。 本 性 将 选取 几 个 深度 学 习 应 用 
比较 广泛 的 领域 进行 详细 的 介绍 。 但 深度 学 习 的 应 用 不 仅 限 于 本 节 中 所 介绍 的 领域 ， 在 每 
个 领域 中 的 应 用 也 不 限于 列举 出 的 几 个 方面 。 


1.3.1 计算 机 视觉 


计算 机 视觉 是 深度 学 习 技术 最 早 实 现 突破 性 成 就 的 领域 .在 1.2 节 中 介绍 过 , 随 着 2012 
年 深度 学 习 算 法 AlexNet 启 得 图 像 分 类 比赛 ILSVRC (ImageNet Large Scale Visual 
Recognition Challenge) 冠 军 , 深度 学 习 开 始 受 到 学 术 界 广泛 的 关注 .ILSVRC 是 基于 ImageNet 
图 像 数 据 集 举 办 的 图 像 识别 技术 比赛 ， 这 个 比赛 在 计算 机 视觉 领域 有 极 高 的 影响 力 。 

图 1-7 展示 了 历年 ILSVRC 比赛 的 情况 。 从 图 1-7 中 可 以 看 到 ， 在 深度 学 习 被 使 用 之 
前 ， 传 统计 算 机 视觉 的 方法 在 ImageNet 数据 集 上 最 低 的 Top5 错误 率 为 26%”。 从 2010 年 
到 2011 年 , 基于 传统 机 器 学 习 的 算法 并 没有 带 来 正确 率 的 大 幅 提升 ,在 2012 年 时 , Geoffrey 
Everest Hinton 教授 的 研究 小 组 利用 深度 学 习 技术 将 ImageNet 图 像 分 类 的 错误 率 大 幅 下 降 
到 了 16%。 而 且 ，AlexNet 深度 学 习 模 型 只 是 一 个 开始 ， 在 2013 年 的 比赛 中 ， 排 名 前 20 
的 算法 都 使 用 了 深度 学 习 。 从 2013 年 之 后 ，ILSVRC 上 基本 就 只 有 深度 学 习 算 法 参赛 了 。 

从 2012 年 到 2015 年 间 ， 通 过 对 深度 学 习 算 法 的 不 断 研究 ，ImageNet 图 像 分 类 的 错误 
率 以 每 年 4% 的 速度 递减 ,这 说 明 深 度 学 习 完 全 打破 了 传统 机 器 学 习 算 法 在 图 像 分 类 上 的 并 
贷 ， 让 图 像 分 类 问题 得 到 了 更 好 的 解决 。 如 图 1-7 所 示 ， 到 2015 年 时 ， 深 度 学 习 算 法 的 错 
误 率 为 4%， 已 经 成 功 超越 了 人 工 标注 的 错误 率 (5%)， 实 现 了 计算 机 视觉 研究 领域 的 一 个 
突破 。 

在 ImageNet 数据 集 上 ， 深 度 学 习 不 仅 突破 了 图 像 分 类 的 技术 瓶颈 ， 同 时 也 突破 了 物体 
识别 的 技术 瓶颈 。 物 体 识别 的 难度 比 图 像 分 类 更 高 。 图 像 分 类 问题 只 需 判断 图 片 中 包含 哪 
一 种 物体 。 但 在 物体 识别 问题 中 ， 需 要 给 出 所 包含 物体 的 具体 位 置 。 而 且 一 张 图 片 中 可 能 
出 现 多 个 需要 识别 的 物体 。 图 1-8 展示 了 ILSVRC2013 物体 识别 数据 集中 的 样 例 图 片 。 每 


QW 在 ImageNet 图 像 分 类 问题 上 ， 大 部 分 研究 都 使 用 Top5 错误 率 来 评价 模型 优 劣 。 第 6 章 将 更 加 详细 地 
介绍 ImageNet 数据 集 。 
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一 张 图 片 中 所 有 可 以 被 识别 的 物体 都 被 不 同 颜色 的 方 框 标注 了 出 来 。 在 2013 年 时 , 使 用 传 
统 机 器 学 习 算 法 可 以 达到 的 MAP (mean average precision)“ 值 为 0.23。2016 年 时 ， 使 用 了 
6 种 不 同 深 度 学 习 模 型 的 集成 算法 〈ensemble algorithm) 成 功 将 MAP 提高 到 了 0.668 . 


topS(iii) 
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图 1-8 ”ILSVRC2013 物体 识别 数据 集中 的 样 例 图片 2 


在 技术 革新 的 同时 ， 工 业界 也 将 图 像 分 类 、 物 体 识别 应 用 于 各 种 产品 中 了 。 在 谷歌 ， 
图 像 分 类 、 物 体 识别 技术 已 经 被 广泛 应 用 于 谷歌 无 人 驾驶 车 、YouTube、 谷 歌 地 图 、 谷 歌 图 
像 搜索 等 产品 中 。 图 1-9 中 展示 了 使 用 谷歌 图 像 搜 索 来 辨别 动物 。 谷 歌 通 过 图 像 处 理 技术 
可 以 归纳 出 图 片 中 的 主要 内 容 并 实现 以 图 搜 图 的 功能 。 这 些 技术 在 国内 的 百度 、 阿 里 、 腾 
讯 等 科技 公司 也 已 经 得 到 了 广泛 的 应 用 。 


@ http://image-net.org/challenges/LSVRC/2013/index#task 中 有 更 多 关于 工 SVRC2013 物体 识别 数据 集 的 介绍 。 
@ 数字 出 自 ILSVRC 官网 : http://image-net.org/challenges/LSVRC/2016/results 。 
@ 图 片 来 自 于 ILSVRC 官网 :http:Wimage-net,org/challenges/LSVRC/2013/。 
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Coocgle -加 tjpy husky with blue eyes 


站 人 Imayes (Maps shopping ro" Seafcl tools 


About 20. 500 .000 fesully (1,.43 seconds) 


Image Sze' 
282 = 179 


Find other sizes of this Image’ 
All sss -Large 





Best guess for this image’; husky with blue eyes 


(a) 在 浴 歌 图 片 搜索 中 提供 一 张 哈 士 闸 《一 种 狗 ) 的 图 片 ， 得 到 的 结果 为 “husky with bjue eyes〈 蓝 色 有 眼睛 的 险 士 
奇 )”， 重 然 从 图 片 中 无 法 确认 眼睛 是 否 为 蓝 色 ， 但 是 谷歌 可 以 非常 精确 的 识别 出 狗 的 品种 。 


Gongle E22 2jpg * Wolfpublic domain 
Al Images 人 Maps Shopping Morsr Search iopls 


Abou! 25 270.090.00D results (0 95 saconNnds) 


和 Ze: 


| Imagce 
275 « 183 


| Find other silzes of thls imag6: 
| Allslizes -Medium - Large 





Best guess for this image: wolf public domain 


(b) 在 谷歌 图 片 搜索 中 提供 一 张 狼 的 图 片 ,， 得 到 的 结果 为 “wolfpublic domain (旷野 上 的 狼 )”; 虽然 这 张 图 片 和 (a) 
中 哈士奇 的 图 片 非常 接近 ， 但 是 谷歌 可 以 非常 精确 的 识别 动物 的 种 类 ， 


1-9 通过 谷歌 图 像 搜索 识别 动物 


在 物体 识别 问题 中 ， 人 脸 识别 是 一 类 应 用 非常 广泛 的 技术 。 它 既 可 以 应 用 于 娱乐 行业 ， 
也 可 以 应 用 于 安防 、 风 控 行 业 。 在 娱乐 行业 中 ， 基 于 人 脸 识 别 的 相机 目 动 对 焦 、 自 动 美 颜 
基本 已 经 成 为 每 一 款 自拍 软件 的 必 备 功能 。 在 安防 、 风 挖 领域 ， 人 脸 识别 应 用 更 是 大 大 提 
高 了 工作 效率 并 节省 了 人 力 成 本 。 比 如 在 互联 网 金融 行业 ， 为 了 控制 贷款 风险 ， 在 用 户 注 
册 或 者 贷款 发 放 时 需要 验证 本 人 信息 。 个 人 信息 验证 中 一 个 很 重要 的 步骤 是 验证 用 户 提供 
的 证 件 和 用 户 是 同一 个 人 。 通 过 人 脸 识别 技术 ， 这 个 过 程 可 以 被 更 加 高 效 地 实现 。 

在 深度 学 习 得 到 广泛 应 用 之 前 ， 基 于 传统 的 机 器 学 习 技术 并 不 能 很 好 地 满足 人 脸 识 别 
的 精度 要 求 。 人 脸 识 别 的 最 大 挑战 在 于 不 同人 脸 的 差异 较 小 ， 有 时 同一 个 人 在 不 同 光 照 条 
件 、 姿 态 或 者 表情 下 脸 部 的 差异 甚至 会 比 不 同人 脸 之 间 的 差异 更 大 。 传 统 的 机 器 学 习 算法 
很 难 抽象 出 足够 有 效 的 特征 ， 使 得 学 习 模 型 既 可 以 区 分 不 同 的 个 体 ， 又 可 以 尽量 减少 相同 
个 体 在 不 同 环 境 中 的 变化 。 深 度 学 习 技术 通过 从 海量 数据 中 自动 习 得 更 加 有 效 的 人 脸 特征 
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表达 , 可 以 很 好 地 解决 这 个 问题 ,在 人 脸 识 别 数 据 集 LEW2 (Labeled Faces in the Wild) 上 ， 
基于 深度 学 习 算 法 的 系统 DeepID2 可 以 达到 99.47% 的 识别 率 。 

在 计算 机 视觉 领域 ,光学 字符 识别 (optical character recognition，OCR) 也 是 使 用 深度 
学 习 较 早 的 领域 之 一 。 所 谓 光 学 字符 识别 ， 就 是 使 用 计算 机 程序 将 计算 机 无 法 理解 的 图 片 中 
的 字符 ， 比 如 数字 、 字 母 、 汉 子 等 符号 ， 转 化 为 计算 机 可 以 理解 的 文本 格式 。 早 在 1989 年 ， 
Yann LeCun 教授 发 表 的 论文 Bachkpropagation Applied to Handwritten Zip Code Recognition 将 
卷 积 神经 网 络 成 功 应 用 到 了 识别 手写 邮政 编码 的 问题 上 上， 达到 了 接近 95% 的 正确 率 。 在 
MNIST 手写 体 数 字 识 别 数 据 集 上 ， 最 新 的 深度 学 习 算 法 可 以 达到 99.77% 的 正确 率 ， 这 也 
超过 了 人 类 的 表现 。 第 5 章 将 更 加 详细 地 介绍 MNIST 手写 体 数 字 识 别 数据 集 。 

光学 字符 识别 在 工业 界 的 应 用 也 十 分 广泛 。 在 21 世纪 初期 ，Yann LeCun 教授 将 基于 
卷 积 神经 网 络 的 手写 体 数 字 识 别 系统 应 用 于 银行 支票 的 数额 识别 , 这 个 系统 在 2000 年 左右 
已 经 处 理 了 美国 全 部 支票 数量 的 10%~20%”。 人 党 歌 也 将 数字 识别 技术 用 在 了 谷歌 地 图 的 开 
发 中 。 谷 歌 实现 的 数字 识别 系统 可 以 从 谷歌 街景 图 中 识别 任意 长 度 的 数字 ， 并 在 SVHN 数 
据 集 * 上 可 以 达到 96% 的 正确 率 "。 到 2013 年 为 止 ， 这 个 系统 已 经 帮助 谷歌 抽取 了 超过 1 
亿 个 门牌 号 码 ， 大 大 加 速 了 谷歌 地 图 的 制作 过 程 并 节省 了 巨额 的 人 力 成 本 。 而 且 ， 光 学 字 
符 识 别 技术 在 谷歌 的 应 用 也 不 仅 限 于 数字 识别 。 谷 歌 图 书 通过 文字 识别 技术 将 扫描 的 图 书 
数字 化 ， 从 而 实现 图 书 内 容 的 搜索 功能 。 


1.3.2 语音 识别 


深度 学 习 在 语音 识别 领域 取得 的 成 绩 也 是 突破 性 的 。2009 年 深度 学 习 的 概念 被 引入 语 
音 识 别 领 域 , 并 对 该 领域 产生 了 巨大 的 影响 。 在 短 短 几 年 时 间 内 , 深度 学 习 的 方法 在 TIMIT 
数据 集 8 上 将 基于 传统 的 混合 高 斯 模型 〈gatissian mixture model，GMM) 的 错误 率 从 21.7% 
降低 到 了 使 用 深度 学 习 模 型 的 17.9%。 如 此 大 的 提高 幅度 很 快 引 起 了 学 术 界 和 工业 界 的 广 
泛 关 注 。 从 2010 年 到 2014 年 间 ， 在 语音 识别 领域 的 两 大 学 术 会 议 IEEE-ICASSP 和 


由 更 多 关于 人 脸 识别 数据 集 LFW 的 信息 可 以 参考 其 官方 网 站 : http://Vis-www.cs.umass.edu/lfw/。 
回 数字 出 自 Yann LeCun 教授 在 CERN 研讨 会 上 的 报告 Deep Learning and the Future of A1: 报告 资料 可 以 
参考 ，https://indico.cern.ch/event/510372/。 
加 SVHN 数据 集 是 斯 坦 福 大 学 开源 的 数据 集 ， 更 多 关于 该 数据 的 信息 可 以 参考 其 官方 网 站 : 
http://ufldl.stanford.edu/housenumbers/, 
由 数字 参见 : Goodfellow IJ, Bulatov Y, Ibarz J, et al. Multi-digit Number Recognition from Steel View Imagery 
using Deep Convolutional Neural Networks [J]. Computer Science, 2013. 
回 更 多 关于 TIMIT 数据 集 的 信息 可 以 参考 其 官方 网 站 : https://catalog.ldcupenn,edwlde93s1。 
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Interspeech 上 ， 深 度 学 习 的 文章 呈现 出 逐年 递增 的 趋势 。 在 工业 界 ， 包 括 谷 歌 、 苹 果 、 微 
软 、IBM、 百度 等 在 内 的 国内 外 大 型 IT 公司 提供 的 语音 相关 产品 , 比如 谷歌 的 Google Now、 
苹果 的 Siri、 微 软 的 Xbox 和 Skype 等 ， 都 是 基于 深度 学 习 算 法 。 

在 2009 年 谷歌 局 动 语音 识别 应 用 时 ， 使 用 的 是 在 学 术 界 已 经 研究 了 30 年 的 混合 高 斯 
模型 。 到 2012 年 时 ， 深 度 学 习 的 语音 识别 模型 已 经 取代 了 混合 高 斯 模型 ， 并 成 功 将 谷歌 语 
音 识别 的 错误 率 降低 了 20%， 这 个 改进 幅度 超过 了 过 去 很 多 年 的 总 和 。 微 软 的 研究 人 员 通 
过 大 量 实 验 得 出 ， 使 用 深度 学 习 的 算法 比 使 用 混合 高 斯 模型 的 算法 更 能 够 从 海量 数据 中 获 
益 。 随 看 数据 量 的 加 大 ， 使 用 深度 学 习 模型 无 论 在 正确 率 的 增长 数值 上 还 是 在 增长 比率 上 
都 要 优 于 使 用 混合 高 斯 模型 的 算法 ”。 这 样 的 增长 在 语音 识别 的 历史 上 是 从 未 出 现 过 的 , 而 
深度 学 习 之 所 以 能 完成 这 样 的 技术 突破 ， 最 主要 的 原因 是 它 可 以 自动 地 从 海量 数据 中 提取 
更 加 复杂 且 有 效 的 特征 ， 而 不 是 如 高 斯 混合 模型 中 需要 人 工 提取 特征 。 

基于 深度 学 习 的 语音 识别 已 经 被 应 用 到 了 各 个 领域 ， 其 中 最 被 大 家 所 熟知 的 应 该 是 全 
果 公 司 推 出 的 Siri 系统 。Siri 系统 可 以 根据 用 户 的 语音 输入 完成 相应 的 操作 功能 ,这 大 大 方 
便 了 用 户 的 使 用 。 目 前 ，Siri 已 经 支持 包括 中 文 在 内 的 20 种 不 同 语言 。 与 Siri 类 似 ， 谷 歌 
也 在 安 持 《Android) 系统 上 推出 了 谷歌 语音 搜索 (Google Voice Search )。 另 外 一 个 成 功 应 
用 语音 识别 的 系统 是 微软 的 同 声 传译 系统 。 在 2012 年 的 微软 亚洲 研究 院 (Microsoft Research 
Asia，MSRA) 二 十 一 世纪 计算 大 会 (21st Century Computing) 上 ， 微 软 高 级 副 总 裁 Richard 
Rashid 现场 演示 了 微软 开发 的 从 英语 到 汉语 的 同 声 传译 系统 ”。 该 演讲 受到 了 非常 广泛 的 关 
注 ， 在 YouTube 网 站 上 已 经 有 超过 一 百 万 次 的 播放 量 。 同 声 传译 系统 不 仅 要 求 计算 机 能 
对 输入 的 语音 进行 识别 ， 它 还 要 求 计算 机 将 识别 出 来 的 结果 翻译 成 另外 一 门 语 言 ， 并 将 翻 
详 好 的 络 采 通过 语音 合成 的 方式 输出 。 在 没有 深度 学 习 之 前 ， 要 完成 同 声 传 译 系统 中 的 任 
意 一 个 部 分 都 是 非常 困难 的 。 而 随 着 深度 学 习 的 发 展 ， 语 音 识别 、 机 器 翻译 以 及 语音 合 
都 实现 了 巨大 的 技术 突破 。 如 今 ， 微 软 研 发 的 同 声 传译 系统 已 经 被 成 功 地 应 用 到 了 Skype 
网 络 电话 中 。 


1.3.3” 目 然 语 言 处 理 


深度 学 习 在 目 然 语言 处 理 领 域 的 应 用 也 同样 广泛 。 在 过 去 的 几 年 中 ， 深 度 学 习 已 经 在 


GD 参见 :LiD. Achievements and Challenges of Deep Learning [J]. Apsipa Transactions on Signal & Information 
Processing, 2015. 
@ 演讲 视频 地 址 为 http://v.youku.com/v_show/id XNDcyOTUwNjMy.html。 
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语言 模型 (language modeling)、 机 器 翻译 、 词 性 标注 (part-of-speech tagging)、 实 体 识 别 
(named entity recognition，NER)、 情 感 分 析 (sentiment analysis)、 广 告 推荐 以 及 搜索 排序 
等 方向 上 取得 了 突出 成 就 。 与 深度 学 习 在 计算 机 视觉 和 语音 识别 等 领域 的 突破 类 似 ， 深 度 
学 习 在 自然 语言 处 理 问题 上 的 突破 也 是 能 够 更 加 智能 、 目 动 地 提取 复杂 特征 。 在 自然 语言 
处 理 领域 ， 使 用 深度 学 习 实 现 智 能 特征 提取 的 一 个 非常 重要 的 技术 是 单词 辣 量 (word 
embedding)。 单 词 向 量 是 深度 学 习 解 决 很 多 上 述 自然 语言 处 理 问 题 的 基础 。 

在 自然 语言 处 理 领域 ， 一 个 非常 棘手 的 问题 在 于 目 然 语言 中 有 很 多 词 表 达 了 相近 的 意 
思 ， 比 如 “ 狗 ” 和 “ 犬 ” 就 几乎 表达 了 同样 的 意思 。 然 而 “ 狗 ” 和 “ 犬 ” 的 编码 在 计算 机 
中 可 能 差别 很 大 ， 所 以 计算 机 就 无 法 很 好 地 理解 目 然 语 言 所 表达 的 语义 。 为 了 解决 这 个 问 
题 ， 研 究 人 员 人 工 建 立 了 大 量 的 语料库 。 通 过 这 些 语料库 ， 可 以 大 致 刻画 目 然 语 言 中 单词 
之 间 的 关系 。 在 建立 好 的 语料库 中 ，WordNete2、ConceptNete 和 FrameNete 是 其 中 影响 力 比 
较 大 的 几 个 。 然 而 语料库 的 建立 需要 花费 很 多 人 力 物 力 ， 而 且 扩展 能 力 有 限 。 单 词 癌 量 提 
供 了 一 种 更 加 灵活 的 方式 来 刻画 单词 的 语义 。 

单词 向 量 会 将 每 一 个 单词 表示 成 一 个 相对 较 低 维度 的 同 量 (比如 100 维 或 200 维 )。 对 
于 语义 相近 的 单词 ， 其 对 应 的 单词 向 量 在 空间 中 的 距离 也 应 该 接近 。 于 是 单词 语义 上 的 相 
似 度 可 以 通过 空间 中 的 距离 来 描述 。 单 词 癌 量 不 需要 通过 人 工 的 方式 设 定 ， 它 可 以 从 互联 
网 上 海量 非 标 注 文本 中 学 习 得 到 。 使 用 斯 坦 福 大 学 开源 的 GloVe 单词 向 量 可 以 得 到 与 单词 
“frog (青蛙 )” 所 对 应 的 单词 癌 量 最 相似 的 $ 个 单词 分 别 是 “frogs (青蛙 复数 )”“toad〔( 蜂 
内 )” “itoria 〈 雨 滨 蛙 属 ) 六 “leptodactylidae 〈 细 趾 蟾 科 )” 和 “rana《〈 中 国 林 蛙 )”。 从 这 
个 样 例 可 以 看 出 ， 单 词 问 量 可 以 非常 有 效 地 刻画 单词 的 语义 。 通 过 单词 同 量 还 可 以 进行 单 
词 之 间 的 运算 。 比 如 用 单词 “king” 所 代表 的 同 量 减 去 单词 “man” 所 代表 的 同 量 得 到 的 结 
果 向 量 和 单词 “queen” 减 去 “woman” 得 到 的 结果 问 量 相 似 。 这 说 明 在 单词 同 量 中 ， 已 经 
隐 含 了 表达 性 别 的 概念 。 


(QD 参见 : Mikolov T Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their 
Compositionality [J]. Advances in Neural Information Processing Systems, 2013,.26.. 

@ 参见 : Collobert R, Weston J, Bottou L, et al. Natural Laneuage Processing (Almost) from Scratch [J]. Journal 
of Machine Learning Research, 2011. 

@ 更 多 关于 WordNet 的 资料 可 以 参考 其 官方 网 站 : https://wordnet.princeton.edu/。 

由 更 多 关于 ConceptNet 的 资料 可 以 参考 其 官方 网 站 : http://conceptnet5.media.mit.edu/。 

@ 更 多 关于 FrameNet 的 资料 可 以 参考 其 官方 网 站 : https://framenet.icsi.berkeley.edu/fndrupal/。 

@ 具体 关于 GloVe 的 介绍 可 以 参考 其 官方 网 站 : http://nlp.stanford.edu/projects/glove/。 


ww ai bbt.com DODOUDDDDD 





TensorFlow: 实战 Google 深度 学 习 框 架 


通过 对 自然 语言 中 单词 更 好 地 抽象 与 表达 ， 深 度 学 习 在 自然 语言 处 理 的 很 多 核心 问题 
上 都 有 突破 性 的 进展 。 机 器 翻译 就 是 其 中 的 一 个 例子 。 图 1-10 展示 了 谷歌 翻译 提供 的 传统 
算法 和 深度 学 习 算法 翻译 不 同 语言 对 的 质量 对 比 图 。 从 图 1-10 可 以 看 出 ,在 所 有 的 语言 
上 ， 深 度 学 习 算 法 都 可 以 大 幅度 提高 翻译 的 质量 。 根 据 谷歌 的 实验 结果 ， 在 主要 的 语言 对 
上 上， 使 用 深度 学 习 可 以 将 机 器 翻译 算法 的 质量 提高 55% 到 85%。 表 1-1 对 比 了 不 同 算法 翻 
译 同 一 句 话 的 结果 。 从 表 中 可 以 直观 地 看 到 深度 学 习 算 法 带 来 翻译 质量 的 提高 . 在 2016 年 
9 月 ， 谷 歌 正 式 上 线 了 基于 深度 学 习 的 中 译 英 软件 。 现 在 在 谷歌 翻译 产品 中 ， 已 经 有 8 种 
语言 是 由 基于 深度 学 习 的 翻译 算法 完成 的 。 


英 雪 -> 法 语 英语 写 中 文 丁香 牙 语 -> 英语 法语 -> 英语 
基于 传 纺 机 器 学 习 算 法 表现 。 基于 深度 学习 算法 来 现 。 和 人 工 束 现 


1-10 不 同 翻译 算法 在 不 同 语言 上 的 翻译 质量 (其 中 0 表示 最 低 的 质量 ，6 表示 最 好 的 质量 ) 





表 1-1 ”不同 翻 译 算 法 的 翻译 效果 对 比 表 ” 










中 文 原 句 李克强 此 行将 启动 中 加 总 理 年 度 对 话机 制 , 与 加 拿 大 总 理 杜 鲁 多 举行 两 国 总 理 首次 年 度 对 话 。 
基于 传统 机 器 学 习 算 法 的 | Li Keqiang premier added this line to start the annual dialogue mechanism with the Canadian Prime 
翻译 结果 Minister Trudeau two prime ministers held its first annual session. 
基于 深度 学 习 算 法 的 翻译 | Li Keqiang will start the annual dialogue mechanism with Prime Minister Trudeau of Canada and 
结果 hold the first annual dialogue between the two premiers， 

Li Keqiang will initiate the annual dialogue mechanism between premiers of China and Canada 
人 工 翻 译 结果 
during this visit, and hold the first annual dialogue with Premier Trudeau of Canada. 


Q@ 数字 出 自 谷歌 技术 博客 : https://research.googleblog.com/2016/09/a-neural-network-for-machine.html。 
@ 此 表 中 数据 出 自 谷 歌 技 术 博 客 : https://research.googleblog.com/2016/09/a-neural-network-for-machine.html。 
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第 1 章 深度 学 习 简 介 


情感 分 析 是 自然 语言 处 理 问 题 中 另外 一 个 非常 经 典 的 应 用 。 情 感 分 析 最 核心 的 问题 就 
是 从 一 段 自 然 语言 中 判断 作者 对 评价 的 主体 是 好 评 还 是 差 评 。 情 感 分 析 在 工业 界 有 着 非常 
广泛 的 应 用 。 随 着 互联 网 的 发 展 ， 用 户 会 在 各 种 不 同 的 地 方 表 达 对 于 不 同 产品 的 看 法 。 对 
于 服务 行业 或 者 制造 业 ， 及 时 掌握 用 户 对 其 产品 或 者 服务 的 评价 是 提高 用 户 满意 度 非 常 有 
效 的 途径 。 在 金融 行业 ， 通 过 分 析 用 户 对 不 同 产品 和 公司 的 态度 可 以 对 投资 选择 提供 帮助 。 
Derwent Capital Markets 于 2012 年 5 月 正式 上 线 ， 它 是 世界 首 家 通过 对 社交 网 络 Twitter 上 
推 文 进行 情感 分 析 来 指导 证 券 交 易 的 对 冲 基 金 公司 , 在 同年 8 月 的 一 份 调查 中 显示 , 该 公 
司 的 平均 收益 率 1.85% 远 远 超过 了 平均 0.76% 的 收益 率 。 类 似 的 ， 也 有 研究 表明 ， 在 政治 
选举 中 ， 通 过 对 Twitter 上 推 文 情 感 分 析 得 出 的 结果 和 通过 传统 的 调查 、 投 票 等 方法 得 出 的 
结果 高 度 一 致 ”。 在 情感 分 析 问 题 上 ， 深 度 学 习 也 可 以 大 幅 提 高 算法 的 准确 率 。 在 斯 坦 福 大 
学 开源 的 Sentiment Treebank 数据 集 上 ” 使 用 深度 学 习 的 算法 可 以 将 语句 层面 的 情感 分 析 正 确 
率 从 80% 提 高 到 85.4%。 在 短语 层面 上 ， 使 用 深度 学 习 的 算法 可 以 将 正确 率 从 71% 提 高 到 
80.7%”。 


1.3.4 人 机 博 穿 


如 果 说 深度 学 习 在 图 像 识别 领域 上 的 突破 掀起 了 学 术 界 的 研究 浪潮 ， 那 么 深度 学 习 在 
人 机 博弈 上 的 突破 使 得 这 个 概念 被 全 社会 所 熟悉 。 在 北京 时 间 2016 年 3 月 15 日 的 下 午 ， 
谷歌 开发 的 围棋 人 工 智能 系统 AlphaGo 以 总 比分 4: 1 战胜 了 韩国 棋 手 李 世 石 ， 成 为 第 一 
个 在 19x19 棋盘 上 战胜 人 类 围棋 冠军 的 智能 系统 。 虽然 AlphaGo 不 是 第 一 个 战胜 人 类 世界 
冠军 的 系统 ， 但 AlphaGo 的 胜利 绝对 是 人 工 智能 历史 上 的 一 座 里 程 碑 。 在 1997 年 IBM 的 
智能 国际 象棋 系统 深蓝 (deep blue) 击败 世界 冠军 卡 斯 帕 罗 夫 时 ， 所 依赖 的 更 多 是 计算 机 
的 计算 资源 ， 是 通过 暴力 搜索 (bmte-force) 的 方式 尝试 更 多 的 下 棋 方 法 从 而 战胜 人 类 。 然 


中 参见 ，Bollen J, Mao H, Zeng X. Tiwitter mood predicts the stock market [J], Journal of Computational 
Science, 2010. 

回 参见 ;O'Connor B, Balasubramanyan R, Routledge B R, et al. From Tiweets to Polls: Linking Text Sentiment 
ta Public Opinion Time Series [Cl]//! International Conference on Weblogs and Social Media, ICWSM 2010, 
Washington, Dc, Usa, May. DBLP, 2010， 

@@) http;//nip.stanford.edu/sentiment/ 中 给 出 了 更 多 关于 Sentiment Treebank 的 信息 。 

由 Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment 
treebank{[J], 2013. 
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TensorFlow: 实战 Google 深度 学 习 框 架 
而 这 种 方式 在 围棋 上 是 完全 不 适用 的 ， 因 为 搜索 围棋 下 子 方法 的 复杂 度 为 10“， 而 国际 象 
棋 只 有 10“。 

为 了 战胜 人 类 围棋 世界 冠军 ，AlphaGo 需要 使 用 更 加 智能 的 方式 。 深 度 学 习 技术 为 这 
种 方式 提供 了 可 能 。AlphaGo 主要 是 由 三 个 部 分 组 成 ,他们 分 别 是 绽 特 卡 罗 树 搜索 (Monte 
Carlo tree search，MCTS)、 估 值 网 络 (value network) 和 走 棋 网 络 (policy network)。 蒙 特 
卡 罗 树 搜索 算法 实现 了 对 不 同 落 子 点 的 搜索 ， 不 过 和 之 前 的 纯 暴 力 搜索 不 同 ，AlphaGo 中 
使 用 的 蒙特 卡 罗 树 会 根据 估 值 网 络 和 走 棋 网 络 对 落 子 后 局 势 的 评判 结果 来 更 加 智能 地 寻找 
最 佳 落 子 点 。 

AlphaGo 月 后 真正 的 大 脑 是 估 值 网 络 和 走 棋 网 络 ， 而 这 两 个 组 件 都 是 通过 深度 学 习 实 
现 的 。 走 棋 网 络 解决 的 问题 是 给 定 当 前 棋盘 ， 预 测 下 一 步 应 该 在 哪 落 子 。 通 过 在 大 量 人 类 
围棋 高 手 对 弃 的 棋谱 获取 的 训练 数据 ， 走 棋 网 络 能 够 以 57% 的 准确 率 预 测 人 类 围棋 高 手下 
一 步 的 落 子 点 。 然 而 ， 仅 仅 预测 人 类 高 手 的 落 子 方法 是 不 够 的 ， 为 了 能 够 战胜 人 类 冠军 ， 
走 棋 网 络 还 通过 目 己 跟 上 自己 对 歼 的 方式 来 进一步 提高 落 子 水 平 。AlphaGo 的 另外 一 个 大 脑 
是 信 值 网 络 ， 它 解决 的 问题 是 给 定 当 前 的 棋盘 ， 判 断 黑 棋 启 的 概率 。 训 练 估 值 网 络 所 使 用 
的 数据 就 是 落 子 网 络 自己 和 自己 对 界 时 产生 的 。 通 过 模特 卡 罗 树 搜索 的 方法 将 走 棋 网 络 和 估 
值 网 络 这 两 个 大 脑 有 机 地 结合 ，AlphaGo 才 最 终 以 悬殊 的 比分 战胜 了 人 类 的 围棋 世界 冠军 。 

AlphaGo 战神 人 类 世界 冠军 不 是 人 机 博 研 的 终点 ， 相 反 ， 这 只 是 一 个 开始 。AlphaGo 
的 开发 团队 DeepMind 最 近 又 宣布 了 他 们 的 下 一 个 目标 一 一 星际 争霸 2”。 星 际 争霸 2 是 暴 
雪 公 司 (Blizzard)〉 开发 的 一 款 即 时 战略 游戏 。 在 游戏 中 ， 玩 家 需要 六 集 资源 、 建 造 建筑 、 
生产 战斗 单位 来 消灭 对 方 玩家 。 相 比 围棋 ， 星 际 争霸 2 对 于 人 工 智能 系统 设计 的 难度 又 有 
引 数 级 的 提高 。 首 先 ， 围 棋 的 落 子 方式 虽然 多 ， 但 也 是 有 限 的 。 而 人 工 智能 操作 星际 争霸 
2 时 ， 在 任意 一 个 时 刻 ， 人 工 智能 系统 需要 同时 〈 几 乎 同时 ) 操作 多 个 不 同 单位 ， 而 且 操 
作 的 方式 是 完全 开放 的 ， 几 乎 没有 限制 ， 所 以 确定 这 些 操作 很 难 通过 搜索 完成 。 其 次 ， 星 
际 争 霸 2 是 一 个 信息 不 对 称 的 系统 。 下 围棋 时 对 奔 双 方 看 到 的 棋盘 都 是 一 样 的 ， 而 星际 争 
霸 2 中 每 个 玩家 只 能 看 到 自己 的 地 盘 ， 这 要 求人 工 智 能 系统 对 “局 势 ” 做 出 判断 。 第 三 ， 
星际 争霸 2 是 即时 对 战 游戏 ， 需 要 计算 机 在 很 短 的 时 间 内 做 出 判断 ， 这 对 人 工 智 能 系统 的 
计算 速度 有 很 高 的 要 求 。 如 今 暴 雪 公 司 已 经 正式 开始 了 与 DeepMind 团队 的 合作 ， 并 将 在 
不 久之 后 开放 专门 为 人 工 智 能 研究 设计 的 星际 争霸 2 的 API。 在 星际 争霸 2 上 上， 人工 智能 
何 时 能 战胜 人 类 ， 我 们 将 拭目以待 。 





QD 具体 报道 参见 :https://deepmind.com/blog/deepmind-and-blizzard-release-starcraft-ii-ai-research-environment/。 
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1.4 深度 学 习 工 具 介 绍 和 对 比 


在 上 面 的 章节 中 已 经 介绍 了 深度 学 习 的 概念 以 及 历史 ， 并 给 出 了 不 少 成 功 应 用 深度 学 
习 的 样 例 。 然 而 ， 要 将 滩 度 学 习 更 快 且 更 便捷 地 应 用 于 新 的 问题 中 ， 选 择 一 款 深 度 学 习 工 
具 是 必 不 可 少 的 步骤 。 这 一 节 将 介绍 深度 学 习 工 具 TensorFlow 的 主要 功能 和 特点 ， 并 将 对 
比 TensorFlow 和 其 他 主流 的 开源 深度 学 习 工 具 , 给 出 本 书 选择 TensorFlow 作为 主要 介绍 对 
” 象 的 依据 。TensorFlow 是 谷歌 于 2015 年 11 月 9 日 正式 开源 的 计算 框架 。TensorFlow 计算 
框架 可 以 很 好 地 支持 深度 学 习 的 各 种 算法 ， 但 它 的 应 用 也 不 限于 深度 学 习 。 因 为 本 书 的 重 
点 是 介绍 使 用 TensorFlow 实现 深度 学 习 算 法 , 所 以 本 书 中 将 略 去 TensorFlow 对 于 其 他 算法 
的 支持 ， 感 兴趣 的 读者 可 以 在 TensorFlow 的 官方 教程 https:/www.tensorflow.org/tutorials 上 
找到 更 多 通过 TensorFlow 实现 非 深 度 学 习 算 法 的 样 例 。 

TensorFlow 是 由 Jeff Dean 领头 的 谷歌 大 脑 团 队 基 于 谷歌 内 部 第 一 代 深 度 学 习 系统 
DistBelief 改进 而 来 的 通用 计算 框架 。DistBelief 是 谷歌 2011 年 开发 的 内 部 深度 学 习 工 具 ， 
这 个 工具 在 谷歌 内 部 已 经 获得 了 巨大 的 成 功 。 基 于 DistBelief 的 ImageNet 图 像 分 类 系统 
Inception 模型 赢得 了 ImageNet2014 年 的 比赛 (ILSVRC) “”。 通 过 DistBelief， 谷 歌 在 海量 
的 非 标注 YouTube 视屏 中 习 得 了 “ 猫 ” 的 概念 ， 并 在 谷歌 图 片 中 开创 了 图 片 搜索 的 功能 。 
使 用 DistBelief 训练 的 语音 识别 模型 成 功 将 语音 识别 的 错误 率 降低 了 25%。 在 一 次 BBC 采 
访 中 ， 当 时 的 谷歌 首席 执行 官 Eric Schmidt 表示 这 个 提高 比率 相当 于 之 前 十 年 的 总 和 ”。 

虽然 DistBelief 已 经 被 谷歌 内 部 很 多 产品 所 使 用 ， 但 是 DistBelief 过 于 依赖 谷歌 内 部 的 
系统 架构 ， 很 难 对 外 开源 。 为 了 将 这 样 一 个 在 谷歌 内 部 已 经 获得 了 巨大 成 功 的 系统 开源 ， 
谷歌 大 脑 团队 对 DistBelief 进行 了 改进 ,并 于 2015 年 11 月 正式 公布 了 基于 Apache 2.0 开源 
协议 的 计算 框架 TensorFlow。 相 比 DistBelief，TensorFlow 的 计算 模型 更 加 通用 、 计 算 速 度 
更 快 、 支 持 的 计算 平台 更 多 、 支 持 的 深度 学 习 算法 更 广 而 且 系 统 的 稳定 性 也 更 高 。 在 本 书 
后 面 的 章节 中 , 我 们 将 重点 介绍 TensorFlow 的 使 用 , 关于 TensorFlow 平台 本 身 的 技术 细节 
可 以 参考 谷歌 的 论文 TensorFlow: Large-Scale Machine Learning on Heterogeneous 
Distributed Systems™ 。 


Q 在 第 6 章 中 将 具体 介绍 ILSVRC 比赛 以 及 Inception 模型 。 

@ 此 数字 来 源 于 : http://www.csmonitor.com/Technology/2015/0914/Google-chairman-We-re-making-real- 
progress-on-artificial-intelligence。 

G@) 参见 : Abadi M, Agarwal A, Barham P, et al. TensorFlow: Large-Scale Machine Learning on Heterogeneous 


Distributed Systems [J]. 2016. 
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如 今 在 谷歌 内 部 ，TensorFlow 已 经 得 到 了 广泛 的 应 用 。 在 2015 年 10 月 26 日 ,谷歌 正 
式 宣布 通过 TensorFlow 实现 的 排序 系统 RankBrain 上 线 。 相 比 一 些 传统 的 排序 算法 ， 使 用 
RankBrain 的 排序 结果 更 能 满足 用 户 需 求 。 在 2015 年 彭 博 (Bloomberg) 的 报道 中 "， 谷 歌 
i de We A RankBrain 是 第 三 重要 的 排序 算法 。 基 于 TensorFlow 的 
系统 RankBrain 能 在 谷歌 的 核心 网 页 搜索 业务 中 占据 如 此 重要 的 地 位 ， 可 见 TensorFlow 在 
谷歌 内 部 的 重要 性 。 包括 网 页 搜索 在 内 ，TensorFlow 已 经 被 成 功 应 用 到 了 谷歌 的 各 款 产 品 
之 中 。 如 今 ， 在 谷歌 的 语音 搜索 、 广 告 、 电 商 、 图 片 、 街 景 图 、 翻 译 、YouTube 等 众多 产 
品 之 中 都 可 以 看 到 基于 TensorFlow 的 系统 ”。 在 经 过 半年 的 尝试 和 思考 之 后 ， 谷 歌 的 
DeepMind 团队 也 正式 宣布 其 之 后 所 有 的 研究 都 将 使 用 TensorFlow 作为 实现 深度 学 习 算 法 
的 工具 

除了 在 谷歌 内 部 大 规模 使 用 之 外 ，TensorFlow 也 受到 了 工业 界 和 学 术 界 的 广泛 关注 。 
在 Google IO 2016 的 大 会 上 ，Jeff Dean 提 到 已 经 有 1500 多 个 GitHub 的 代码 库 中 提 到 了 
TensorFlow， 而 只 有 5 个 是 谷歌 官方 提供 的 。 如 今 ， 包 括 优 步 〈Uber)、Snapchat、Twitter、 
京东 、 小 米 等 国内 外 科技 公司 也 纷纷 加 入 了 使 用 TensorFlow 的 行列 .正如 谷歌 在 TensorFlow 
开源 原因 中 所 提 到 的 一 样 ，TensorFlow 正在 建立 一 个 标准 ， 使 得 学 术 界 可 以 更 方便 地 交流 
学 术 研 究 成 果 ， 工 业界 可 以 更 快 地 将 机 器 学 习 应 用 于 生产 之 中 。 

除了 TensorFlow， 目 前 还 有 一 些 主流 的 深度 学 习 开源 工具 。 表 1-2 中 总 结 了 这 些 工 具 
的 主要 情况 。 每 款 工具 都 有 各 目的 特点 ， 由 于 篇 幅 所 限 ， 在 本 书 中 不 再 一 一 介绍 每 一 个 工 
具 目 前 的 优 缺 点 ， 感 兴趣 的 读者 可 以 参考 脚注 中 每 种 工具 的 官方 网 站 给 出 的 信息 。 





表 1-2 人 
主要 维护 人 员 (或 团体 ) a rT 





加 州 大 学 伯克利 分 校 视觉 与 学 习 中 心 C++ Python、 MATLAB MATLAB | Linux、 | Linux、 Mac OS X、Windows OS X、 Windows 


Linux、Windows、Mac OS X、 
Deeplearning4j® Skymind Java、Scala、Clojure 
Android 


Q) 具体 报道 参见 : https://www.bloomberg.com/news/articles/2015-10-26/google-turming-its-lucrative-web-search- 
Over-to-al-machines。 

@) TensorFlow 官方 网 站 : https://www.tensorflow.org/versions/r0.9/resources/uses.html 上 列 出 了 一 些 使 用 
TensorFlow 的 样 例 项 目 。 

@) 具体 报道 参见 谷歌 官方 技术 博客 : https://research.googleblog.com/2016/04/deepmind-moves-to-tensorflow.html。 

@) 表 中 工具 根据 字母 序 排列 。 

@) Caffe 官方 网 站 : http://caffe.berkeleyvision.org/。 

(@) Deeplearning4j 官方 网 站 : https://deeplearming4j.org/。 
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p C++ 、 Python 、 Julia ， Linux. Mac OS X Windows, 
分 布 式 机 器 学 习 社 区 (DMLC) 
Matllab. Go, R, Scala Anidroid iOS 


PaddlePaddle” 百度 


和 


Ronan Collobert 、Soumith Chintala 


(Fackbook) Linux, Mae OS X. Windows, 
Lua, Lua]lT, C 
Clement Farabéet (Twitter) Android, iOS 


Koray Kayukcuoglu (Google) 


作者 认为 ,不同 的 深度 学 习 工具 都 在 发 展 之 中 ， 比 较 当 前 的 性 能 、 功 能 固然 是 选择 工 
县 的 一 种 方法 ， 但 更 加 重要 的 是 比较 不 同 工 具 的 发 展 趋势 。 深 度 学 习 本 身 就 是 一 个 处 于 攻 
动 发 展 阶段 的 领域 ， 所 以 对 深度 学 习 工 具 的 选择 ， 作 者 认为 应 该 更 加 看 重工 具 在 开源 社区 
的 活跃 程度 。 只 有 社区 活跃 度 更 高 的 工具 ， 才 有 可 能 跟 上 深度 学 习 本 身 的 发 展 速度 ， 从 而 
在 未 来 不 会 面临 被 淘汰 的 风险 。 

图 1-11 对 比 了 不 同 深度 学 习 工具 在 GitHub 上 活跃 程度 的 一 些 指标 。 图 1-11 (a) 中 比 
较 了 不 同 工 具 在 GitHub 上 受 关 注 的 程度 。 从 图 中 可 以 看 出 ,无 论 是 在 获得 的 星 数 (star) 
还 是 在 仓库 被 复制 的 砍 数 上 ，TensorFlow 都 要 远 远 超过 其 他 的 深度 学 习 工 具 。 如 果 说 图 
1-11(a) 只 能 代表 不 同 深度 学 习 工 具 在 社区 受 关 注 程度 ， 那 么 图 1-11(b) 对 比 了 不 同 深度 学 习 
工具 社区 参与 度 。 图 1-11(b) 中 展示 了 不 同 深度 学 习 工具 在 GitHub 上 最 近 一 个 月 的 活跃 讨 
论 贴 和 代码 提交 请 求 数量 。 活 跃 讨论 帖 越 多 ， 可 以 说 明 真 正 使 用 这 个 工具 的 人 也 就 越 多 ; 
提交 代码 请 求 数量 越 多 ， 可 以 说 明 参 与 到 开发 这 个 工具 的 人 也 就 越 多 。 从 图 1-11 (b) 中 可 
以 看 出 ， 无 论 从 哪个 指标 ，TensorFlow 都 要 远 远 超过 其 他 深度 学 习 工 具 。 大 量 的 活跃 开发 
者 再 加 上 和 谷歌 的 全 力 支 持 ， 作 者 相信 TensorFlow 在 未 来 将 有 更 大 的 潜力 ， 这 也 是 本 书 将 
TensorFlow 作为 介绍 对 象 的 重要 依据 。 





中 Microsoft Cognitive Toolkit 官方 网 站 : https:/www.microsoft.com/en-us/research/product/cognitive-toolkit/。 
加 MXNet 官方 网 站 : http://mxnet.io/。 

@) PaddlePaddie 官方 网 站 : http://www.paddlepaddle.org/。 

和 Theano 官方 网 站 : http://deeplearning.net/software/theano/ 

(@ Torch 官方 网 站 : http;//torch,ch/。 
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本 章 对 深度 学 习 做 了 全 方位 的 介绍 。 首 先 1.1 节 介 绍 了 人 工 智能 、 机 器 学 习 以 及 深度 
学 习 的 概念 ， 并 解释 了 这 些 概念 之 间 的 差异 。 人 工 智能 是 一 类 非常 广泛 的 问题 ， 它 旨 在 通 
过 计算 机 实现 类 似 人 类 的 智能 。 机 器 学 习 是 解决 人 工 智能 问题 的 一 个 重要 方法 。 深 度 学 习 
则 是 机 器 学 习 的 一 个 分 支 ， 它 在 很 多 领域 突破 了 传统 机 器 学 习 的 瓶颈 ， 将 人 工 智能 推 网 了 
一 个 新 的 高 潮 。 然 而 ， 这 样 一 个 突破 性 的 技术 并 不 是 最 近 几 年 凭空 创造 的 ， 它 所 基于 的 人 


@ 图 中 数据 获取 的 时 间 为 2016 年 11 月 17 日 ; 
@ 图 中 数据 来 自 于 Github 上 2016 年 10 月 15 日 至 2016 年 11 月 15 日 的 统计 数据 。 
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工 神 经 网 络 (artificial neural network，ANN) 技术 已 经 发 展 了 大 半 个 世纪 。 不 过 神经 网 络 
的 发 展 不 是 一 帆 风 顺 ，1.2 节 完 整 的 介绍 了 它 发 展 的 三 个 起 落 。 

受到 人 类 大 脑 结 构 的 启发 ,人 工 神 经 网 络 的 计算 模型 于 1943 年 首次 提出 。 之 后 感知 机 
的 发 明 使 得 人 工 神 经 网 络 成 为 真正 可 以 从 数据 中 “学 习 ” 的 模型 。 但 由 于 感知 机 的 网 络 结 
构 过 于 集 单 ， 导 致 无 法 解决 线性 不 可 分 问题 。 再 加 上 人 工 神 经 网 络 所 需要 的 计算 量 太 大 ， 
当时 的 计算 机 无 法 满足 计算 需求 ,使 得 人 工 神经 网 络 的 研究 进入 了 第 一 个 寒冬 。 到 20 世纪 
80 年 代 ， 深 层 神 经 网 络 和 反 回 传播 算法 的 提出 很 好 地 解决 了 这 些 问 题 ， 让 人 工 神经 网 络 进 
入 第 二 个 快速 发 展期 。 不 过 ， 在 这 一 时 期 中 ， 以 支持 问 量 机 为 主 的 传统 机 器 学 习 算 法 也 在 
飞速 发 展 。 在 90 年 代 中 期 ， 在 很 多 机 器 学 习 任务 上 ， 传 统 机 器 学 习 算 法 超越 了 人 工 神经 网 
络 的 精确 度 ， 使 得 人 工 神经 网 络 领 域 再 次 进入 霆 冬 。 直 到 2012 年 前 后 ， 随 着 云 计算 和 海量 
数据 的 普及 ， 人 工 神经 网 络 以 “深度 学 习 ” 的 名 字 再 次 进入 大 家 的 视野 。 在 短 短 几 年 时 间 
内 ， 深 度 学 习 在 很 多 研究 领域 突破 了 传统 机 峰 学 习 的 瓶颈 ， 推 动 了 人 工 智 能 的 有 友 展 。 

人 类 大 脑 的 结构 分 为 了 很 多 神经 中 槐 ， 不 同 的 神经 中 枢 处 理 不 同类 型 的 输入 。 在 很 长 
一 段 时 间 ， 神 经 学 家 认为 人 类 大 脑 不 同 的 神经 中 枢 有 不 同 的 处 理 逻 辑 。 类 似 的 ， 机 器 学 习 
领域 也 一 直 分 为 计算 机 视觉 、 语 音 、 上 自然 语言 处 理 等 多 个 领域 ， 而 且 不 同 领域 使 用 的 算法 
也 有 很 大 区 别 。 然 而 ， 神 经 学 家 后 来 发 现 人 类 大 脑 不 同 神经 中 枢 的 学 习 算 法 是 一 致 的 。 这 
使 得 人 们 看 到 了 深度 学 习 可 以 应 用 在 多 个 领域 的 理论 可 能 性 。 在 实践 中 ， 深 度 学 习 也 确实 
突破 了 很 多 领域 的 技术 瓶颈 。1.3 节 介 绍 了 深度 学 习 在 计算 机 视觉 、 语 音 、 自 然 语言 处 理 、 
人 机 博弈 等 多 个 领域 上 的 突破 性 进展 。 在 ImageNet 图 像 分 类 的 问题 上 ,深度 学 习 成 功 将 错 
误 率 从 26% 降 低 到 了 3.5%。 在 语音 识别 问题 上 上， 谷歌 通过 深度 学 习 将 错误 率 降 低 了 25%， 
这 一 改进 幅度 是 过 去 十 年 的 总 和 。 在 自然 语言 处 理 上 ， 基 于 深度 学 习 的 机 器 翻译 、 搜 索 排 
序 、 情 感 分 析 、 目 然 语 言 建 模 等 应 用 都 已 经 在 国内 外 各 大 科技 公司 内 广泛 使 用 。 由 谷歌 
DeepMind 团队 开发 的 围棋 人 机 博弈 系统 AlphaGo 更 是 激 起 了 全 社会 对 深度 学 习 研 究 的 热 
情 。 如 今 ， 深 度 学 习 已 经 渗透 到 了 工业 界 和 学 术 界 的 每 一 个 领域 。 

要 利用 好 深度 学 习 所 带 来 的 福利 , 选择 一 球 好 的 深度 学 习 工 具 必 不 可 少 。1.4 节 介 绍 了 
谷歌 开源 的 深度 学 习 工 具 TensorFlow 的 特性 和 在 谷歌 内 部 的 应 用 ， 并 将 其 和 目前 其 他 主流 
的 开源 深度 学 习 工 具 做 了 比较 。 在 谷歌 内 部 ，TensorFlow 已 经 被 成 功 应 用 到 语音 搜索 、 广 
告 、 电 商 、 图 片 、 街 景 图 、 翻 译 、YouTube 等 众多 产品 之 中 。 基 于 TensorFlow 开发 的 RankBrain 
排序 算法 在 谷歌 上 干 排序 算法 中 排 在 第 三 重要 的 位 置 ， 由 此 可 见 TensorFlow 在 谷歌 的 重要 
地 人 位。 而且， 对 于 TensorFlow 的 文 持 不 仅仅 来 和 目 谷 歌 。1.4 节 对 比 了 不 同 开 源深 度 学 习 工 
具 的 社区 活跃 度 。 在 各 种 指标 上 ，TensorFlow 的 活跃 程度 都 要 远 远 超过 其 他 工具 。 所 以 ， 
本 书 选择 TensorFlow 作为 介绍 的 工具 。 在 后 面 的 章节 中 将 具体 介绍 如 何 通过 TensorFlow 实 
现 各 种 不 同 的 深度 学 习 算 法 ， 以 及 使 用 TensorFlow 时 的 一 些 最 佳 实践 。 
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一 一 一 一 


本 章 将 介绍 如 何 安装 TensorFlow 环境 以 及 在 安装 好 的 环境 中 运行 简单 的 TensorFlow 位 
例 程序 。 在 介绍 如 何 安装 TensorFlow 之 前 ，2.1 节 将 首先 介绍 TensorFlow 依赖 的 一 些 主要 
工具 包 。 然 后 2.2 节 将 介绍 TensorFlow 的 不 同安 装 方式 以 及 这 些 安装 方式 所 适用 的 不 同 的 
场景 。 最 后 2.3 节 将 给 出 一 个 用 TensorFlow 完成 向 量 加 法 的 样 例 。 通 过 这 个 样 例 程序 ， 读 
者 可 以 测试 安装 好 的 TensorFlow 环境 ， 同 时 也 可 以 对 TensorFlow 有 一 个 直观 的 认识 。 


2.1 TensorFlow 的 主要 依赖 包 


本 节 将 介绍 TensorFlow 依赖 的 两 个 最 主要 的 工具 包 一 一 Protocol Buffer 和 Bazel。 虽 然 
TensorFlow 依赖 的 工具 包 不 仅 限 于 此 节 中 列 出 来 的 两 个 , 但 Protocol Buffer 和 Bazel 是 作者 
认为 相对 比较 重要 的 ， 在 使 用 TensorFlow 的 过 程 中 很 有 可 能 会 接触 到 。 因 为 本 书 的 重点 是 
介绍 TensorFlow， 所 以 在 本 节 对 列 出 来 的 工具 包 只 进行 大 致 的 介绍 ， 主 要 目的 是 为 了 不 妨 
碍 读者 对 TensorFlow 的 使 用 和 理解 。 这些 工具 的 详细 介绍 可 以 参考 脚注 。 在 以 下 的 每 个 小 市 
将 介绍 一 个 工具 包 的 主要 功能 并 给 出 简单 的 样 例 。 





2.1.1 Protocol Buffer 


Protocot Buffer 是 谷歌 开发 的 处 理 结构 化 数据 的 工具 。 何 为 处 理 结构 化 数据 ?这 里 我 
们 给 出 一 个 例子 ,假设 要 记录 一 些 用 户 信 息 , 每 个 用 户 的 信息 包括 用 户 的 名 字 、ID 和 E-mail 
地 址 。 那 么 一 个 用 户 的 信息 可 以 表示 为 以 下 的 形式 。 


GD https://developers.google.com/protocol-buffers/docs/overview 中 给 出 了 更 多 关于 Protocol Buffer 的 介绍 。 
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name: 张 三 
id: 12345 
email: Zhangsan@abc .com 


上 面 的 用 户 信 息 就 是 一 个 结构 化 的 数据 。 注 意 本 节 中 介绍 的 结构 化 数据 和 大 数据 中 的 
结构 化 数据 的 概念 不 同 ， 本 节 中 介绍 的 结构 化 数据 指 的 是 拥有 多 种 属性 的 数据 。 比 如 上 述 
的 用 户 信 息 中 包含 名 字 、ID 和 E-mail 地 址 3 种 不 同属 性 ， 那 么 它 就 是 一 个 结构 化 数据 。 当 
要 将 这 些 结构 化 的 用 户 信 息 持 久 化 或 者 进行 网 络 传输 时 ， 就 需要 先 将 它们 序列 化 。 所 谓 序 
列 化 ， 是 将 结构 化 的 数据 变 成 数据 流 的 格式 ， 人 简单 地 说 就 是 变 为 一 个 字符 串 。 如 何 将 结构 
化 的 数据 序列 化 ， 并 从 序列 化 之 后 的 数据 流 中 还 原 出 原来 的 结构 化 数据 ， 统 称 为 处 理 结构 
化 数据 ， 这 就 是 Protocol Buffer 解决 的 主要 问题 。 

除 Protocol Buffer 之 外 ， XML 和 JSON 是 两 种 比较 常用 的 结构 化 数据 处 理工 具 。 比 如 
将 上 面 的 用 户 信 息 使 用 XML 格式 表达 ， 那 么 数据 的 格式 为 ; 

<USEr> 

<name> 张 三 </name> 
<id>12345</id> 


<email>zhangsan@abc.com</email> 
</user > 


同样 的 数据 ， 使 用 JSON 的 格式 为 : 
{ 


nname": " 张 三 "， 
"id"; W12345", 
"email": “zhangsan@abc.com” ,， 


} 


Protocol Buffer 格式 的 数据 和 XML 或 者 JSON 格式 的 数据 有 比较 大 的 区 别 。 首 先 ， 
Protocol Buffer 序列 化 之 后 得 到 的 数据 不 是 可 读 的 字符 串 ， 而 是 二 进 制 流 。 其 次 ，XML 或 
JSON 格式 的 数据 信息 都 包含 在 了 序列 化 之 后 的 数据 中 ,不 需要 任何 其 他 信息 就 能 还 原 序列 
化 之 后 的 数据 。 但 使 用 Protocol Buffer 时 需要 先 定义 数据 的 格式 (schema) ”。 还 原 一 个 序 
列 化 之 后 的 数据 将 需要 使 用 到 这 个 定义 好 的 数据 格式 。 以 下 代码 给 出 了 上 述 用 户 信息 样 例 
的 数据 格式 定义 文件 。 因 为 这 样 的 差别 ，Protocol Buffer 序列 化 出 来 的 数据 要 比 XML 格式 
的 数据 小 3 到 10 倍 ， 解 析 时 间 要 快 20 到 100 倍 。 

message USer1i 


optional string name = 1; 
required int32 id = 2; 


© https://developers.google.com/protocol-buffers/docs/encoding 中 给 出 了 Protocol Buffer 的 具体 编码 方式 。 
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repeated string email = 3; 

} 

Protocol Buffer 定义 数据 格式 的 文件 一 般 保存 在 .proto 文件 中 。 每 一 个 message 代表 了 
一 类 结构 化 的 数据 ， 比 如 这 里 的 用 户 信息 。message 里 面 定 义 了 每 一 个 属性 的 类 型 和 名 字 ， 
Protocol Buffer 里 属性 的 类 型 可 以 是 像 布尔 型 、 整 数 型 、 实 数 型 、 宇 符 型 这 样 的 基本 类 型 ， 
也 可 以 是 另外 一 个 message。 这 样 大 大 增加 了 Protocol Buffer 的 灵活 性 。 在 message 中 ， 
Protocol Buffer 也 定义 了 一 个 属性 是 必须 的 ‘(required) 还 是 可 选 的 (optional), 或 者 是 可 重 
复 的 (repeated)。 如 果 一 个 属性 是 必须 的 (required)， 那 么 所 有 这 个 message 的 实例 者 需要 
有 这 个 属性 2;， 如 果 一 个 属性 是 可 选 的 Coptional)， 那 么 这 个 属性 的 取 值 可 以 为 室 ， 如 果 一 
个 属性 是 可 重复 的 (repeated)， 那 么 这 个 属性 的 取 值 可 以 是 一 个 列表 。 还 是 以 用 户 信 息 为 
例 ， 所 有 用 户 都 需要 有 ID， 所 以 ID 这 个 属性 是 必须 的 ; 不 是 所 有 用 户 部 填写 了 姓名 ， 所 
以 姓名 这 个 属性 是 可 选 的 ; 一 个 用 户 可 能 有 多 个 E-mail 地 址 , 所 以 E-mail 地 址 是 可 重复 的 。 

Protocol Buffur 是 TensorFlow 系统 中 使 用 到 的 重要 工具 ，TensorFlow 中 的 数据 基本 都 
是 通过 Protocol Buffer 来 组 织 的 。 在 后 面 的 章节 中 将 看 到 Protocol Buffer 是 如 何 被 使 用 的 。 
分 布 式 TensorFlow 的 通信 协议 gRPC 也 是 以 Protocol Buffer 作为 基础 的 。 


2.1.2 Bazel 


Bazel 是 从 谷歌 开源 的 自动 化 构建 工具 ， 众 歌 内 部 绝 大 部 分 的 应 用 都 是 通过 它 来 编译 
的 。 相 比 传 统 的 Makefile、Ant 或 者 Maven，Bazel 在 速度 、 可 伸缩 性 、 灵 活性 以 及 对 不 同 
程序 语言 和 平台 的 支持 上 都 要 更 加 出 色 。TensorFlow 本 身 以 及 谷歌 给 出 的 很 多 官方 样 例 都 
是 通过 Bazel 来 编译 的 。 这 一 小 节 将 简单 介绍 Bazel 是 怎样 工作 的 。 

项 目 空间 (workspace) 是 Bazel 的 一 个 基本 概念 ”。 一 个 项 目 空间 可 以 简单 地 理解 为 一 
个 文件 夹 ， 在 这 个 文件 夹 中 包含 了 编译 一 个 软件 所 需要 的 源 代 码 以 及 输出 编译 结果 的 软 连 
接 (symbolic link) 地 址 。 一 个 项 目 空 间 内 可 以 只 包含 一 个 应 用 (比如 TensorFlow)， 这 种 
情况 在 2.2.3 小 节 中 将 会 用 于 从 源码 安装 TensorFlow。 一 个 项 目 空间 也 可 以 包含 多 个 应 用 。 
一 个 项 目 空间 所 对 应 的 文件 夹 是 这 个 项 目的 根 目 录 ， 在 这 个 根 目 录 中 需要 有 一 个 
WORKSPACE 文件 ， 此 文件 定义 了 对 外 部 资源 的 依赖 关系 。 空 文件 也 是 一 个 合法 的 


@ 在 最 新 的 Protocol Buffer3 中 已 经 不 再 支持 required 类 型 。 
@ http:/www.bazel.io 中 给 出 了 关于 Bazel 的 更 多 介绍 。 
图 http:/Avww.bazel.io/docs/be/workspace.html 中 给 出 了 项 目 空间 的 完整 文档 和 开发 手册 。 
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WORKSPACE 文件 。 

在 一 个 项 目 空间 内 ，Bazel 通过 BUILD 文件 来 找到 需要 编译 的 目标 "。BUILD 文件 采 
用 一 种 类 似 于 Python 的 语法 来 指定 每 一 个 编译 目标 的 输入 、 输 出 以 及 编译 方式 .与 Makefile 
这 种 比较 开放 式 的 编译 工具 不 同 ，Bazel 的 编译 方式 是 事先 定义 好 的 。 因 为 TensorFlow 主 
要 使 用 Python 语言 ， 所 以 这 里 都 以 编译 Python 程序 为 例 。Bazel 对 Python 支持 的 编译 方式 
只 有 三 种 : py binary、py library 和 py test”。 其 中 py_binary 将 Python 程序 编译 为 可 执行 
文件 ,py test 编译 Python 测试 程序 ,py_library 将 Python 程序 编译 成 库 函 数 供 其 他 py_binary 
或 py test 调用 。 下 面 给 出 了 一 个 简单 的 样 例 来 说 明 Bazel 是 如 何 工作 的 。 如 下 所 示 ， 在 样 
例 项 目 空间 中 有 4 个 文件 : WORKSPACE、BUILD、hello_ main.py 和 hello lib.py。 


-rw-rw-r-- TOOt root 208 BUILD 


IW-IW-Ir-— TOOt _ Ioct 48 hello lib.py 
“rirW Em IONE TOOL 人/ hello main.py | 
-rw-rw-r-- root root 0 WORKSPACE 


WORKSPACE 给 出 此 项 目的 外 部 依赖 关系 。 为 了 简单 起 见 ， 这 里 使 用 一 个 空 文件 ， 标 
明 这 个 项 目 没有 对 外 部 的 依赖 。hello lib.py 完成 打印 “Hello World” 的 简单 功能 ， 它 的 代 
码 如 下 : 


def print hello world(): 
print ("Hello World") 


hello main.py 通过 调用 hello lib.py 中 定义 的 函数 来 完成 输出 ， 它 的 代码 如 下 : 


import hello 1ib 
hello lib.print hello world() 


在 BUILD 文件 中 定义 了 两 个 编译 目标 : 


py library( 
name = "hello lib", 
srcs = [ 
"hello lib.py"; 
] 
) 


py binary( 
name = "hello main", 
SCS = [ 
"hello main.py", 


@ http://www.bazel.io/docs/be/overview.html 中 给 出 了 BUILD 文件 的 完整 文档 和 开发 手册 。 
@ http://www.bazel.io/docs/test-encyclopedia.html 中 给 出 了 更 多 关于 测试 目标 的 介绍 。 
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]， 
Geps = [ 
"helle Tb", 
], 
) 


从 这 个 样 例 中 可 以 看 出 ，BUILD 文件 是 由 一 系列 编译 目标 组 成 的 。 定 义 编译 目标 的 先 

后 顺序 不 会 影响 编译 的 结果 。 在 每 一 个 编译 目标 的 第 一 行 要 指定 编译 方式 ， 在 这 个 样 例 中 
就 是 py_library 或 者 py_binary。 在 每 一 个 编译 目标 中 的 主体 需要 给 出 编译 的 具体 信息 。 编 
译 的 具体 信息 是 通过 定义 name，srcs，deps 等 属性 完成 的 。name 是 一 个 编译 目标 的 名 字 ， 
这 个 名 字 将 被 用 来 指 代 这 一 条 编译 目标 。srcs 给 出 了 编译 所 需要 的 源 代码 ， 这 一 项 可 以 是 
一 个 列表 。deps 给 出 了 编译 所 需要 的 依赖 关系 ， 比 如 样 例 中 hello main.py 需要 调用 
hello_lib.py 中 的 函数 ， 所 以 hello_main 的 编译 目标 中 将 hello lib 作为 依赖 关系 。 在 这 个 项 
目 空间 中 运行 编译 操作 bazel build :hello main 将 得 到 类 似 以 下 的 结果 : 

Irwxrwxrwx 1 root root 74bazel-bazel->™~/,cache/bazel/_bazel_root/0ale386d667563a2d9ed561a417dia3e/bazel/ 

|Irwxrwxrvwx 1 root root 104 bazel-bin ->"™~/.cache/bazel/ bazel root/0ale386d667563a2d9ed561aaf7d1ia3e/bazel/bazel-out/local-fastbuild/bin/ 

Irwxrwxrwx 1root root 109 bazel-genfiles -> "/.cache/bazel/_bazel_root/0ale386d667563a2d9ed561af7d1a3e/barel/bazel-out/local-fastbuild/genfiles/ 


Irwxrwxrwx 1 root root 84 bazel-out ->"~/.cache/bazel/ bazel root/0ale386d667563a2d9ed561a417d1ia3e/bazel/bazel-out/ 


Irwxrwxrwx 1 root root 109 bazel-testlogs ->“/.cache/bazel/ barel root/0ale386d667563a2d9ed561a84f7dia3e/bazel/bazel-out/local-fastbuild/testlogs/ 
-frW-rw-f 一 1 root root 208 BUILD 


-rw-rwW-r 一 1root root 48 hello lib.py 
-WrW-r— 1 rootroot 47 hello_main.py 
-fwW-rw-[ 一 1rootrcoot OWORKSPACE 


从 上 面 的 结果 可 以 看 到 ,在 原来 4 个 文件 的 基础 上 ，Bazel 生成 了 其 他 一 些 文件 夹 。 这 
些 新 生成 的 文件 夹 就 是 编译 的 结果 ， 它 们 都 是 通过 软 连 接 的 形式 放 在 当前 的 项 目 空间 里 。 
实际 的 编译 结果 文件 都 会 保存 到 ~/.cache/bazel 目录 下 ， 这 是 可 以 通过 output user root 或 者 
output_base 参数 来 改变 的 ”。 在 这 些 编译 出 来 的 结果 当中 , bazel-bin 目录 下 存放 了 编译 产生 
的 二 进 制 文件 以 及 运行 该 二 进 制 文件 所 需要 的 所 有 依赖 关系 。 在 当前 目录 下 运行 
bazel-bin/hello_main 就 会 在 屏幕 输出 “Hello World”。 其 他 编译 结果 在 本 书 中 使 用 较 少 ， 这 
里 就 不 再 帝 述 。 


2.2 TensorFlow 安装 


TensorFlow 提供 了 多 种 不 同 的 安装 方式 ， 本 小 节 将 逐一 介绍 通过 Docker 安装 、 通 过 
pip 安装 以 及 从 源码 安装 。 


Q@ http://www.bazel.io/docs/output_directories,html 中 详细 介绍 了 编译 结果 的 目录 结构 。 
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2.2.1 使 用 Docker 安装 


Docker" 是 新 一 代 的 虚拟 化 技术 ， 它 可 以 将 TensorFlow 以 及 TensorFlow 的 所 有 依赖 关 
系统 一 封装 到 Docker 镜像 当中 ， 从 而 大 大 简化 了 安装 过 程 。 通 过 Doeker 运行 应 用 时 需要 
先 安装 Docker。Docker 支持 大 部 分 的 操作 系统 ， 下 面 列 出 了 最 主要 的 一 些 。 

s Linux 系统 : Ubuntu、CentOS、Debian、 红 帽 企 业 版 ‘Red Hat EnterpriseLinux) 等 。 

s MacOSX : 10.10.3 Yosemite 或 以 上 。 

s Windows : Windows 7 或 以 上 。 

如 何 安 装 / 使 用 Docker 不 是 本 书 重点 ， 这 里 就 不 再 介绍 在 不 同 操作 系统 下 如 何 安 装 
Docker”。 当 Docker 安装 完成 后 ， 只 需要 使 用 一 个 打包 好 的 Docker 镜像 。 对 于 TensorFlow 
发 布 的 每 一 个 版 本 ， 谷 歌 都 提供 了 4 个 官方 镜像 。 表 2-1 给 出 了 这 些 镜 像 的 名 称 以 及 镜像 
中 的 包含 的 内 容 。 

表 2-1 TensorFlow 官方 Docker 镜像 列表 


ER > 
ao ee 
imi | 


镜像 的 标签 “冒号 后 面 的 部 分 ) 给 出 了 TensorFlow 的 版 本 。 本 书 的 绝 大 部 分 代码 将 统 
一 使 用 版 本 0.9.08。 才 云 科 技 也 提供 了 TensorFlow 的 相关 镜像 cargo.caicloud.io/tensorflow/ 
tensorflow:0.12.0”。 与 官方 镜像 类 似 ，0.12.0 表示 TensorFlow 版 本 。 如 果 TensorFlow 推出 
更 新 的 版 本 ， 此 版 本 号 可 以 被 替换 为 更 新 的 版 本 号 。 在 官方 镜像 的 基础 上 ， 才 云 科技 提供 
的 镜像 进一步 整合 了 其 他 机 器 学 习 工具 包 以 及 TensorFlow 可 视 化 工具 TensorBoard“”， 使 用 
起 来 可 以 更 加 方便 。 才 云 科技 即将 上 线 TensorFlow 的 公有 云 平 台 caicloud.io， 在 此 平台 上 
可 以 直接 运行 TensorFlow 程序 ， 从 而 省 去 了 安装 的 过 程 。 \ 











(QD https://www.docker.com/what-docker 中 详细 介绍 了 Docker 的 基本 概念 。 

@ https://docs.docker.com/engine/installation 中 介绍 了 在 不 同 操作 系统 下 如 何 安装 Docker。 

@ 因为 0.9,0 对 循环 神经 网 络 支 持 不 是 特别 友好 ， 所 以 第 8 章 部 分 代码 使 用 了 版 本 0.10.0。 在 本 书 中 ， 使 
用 了 其 他 版 本 的 样 例 代码 都 给 出 了 明确 的 注释 。 

色 才 云 科技 只 提供 0,12.0 及 以 上 版 本 的 TensorFlow 镜像 。 

名 第 9 章 将 更 加 详细 地 介绍 如 何 使 用 TensorFlow 可 视 化 工具 TensorBoard。 
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当 Docker 安装 完成 之 后 ， 可 以 通过 以 下 命令 来 启动 一 个 TensorFlow 容器 ”。 在 第 一 次 
运行 的 时 候 ，Docker 会 自动 下 载 镜像 。 


5 docker run -it -=p 8888:8888 -p 6006:6006\ 
cargo.caicloud.io/tensorflow/ tensorflow:0.12.0 


在 这 个 命令 中 , -p 8888:8888 将 容器 内 运行 的 Jupyter 服务 映射 到 本 地 机 器 , 这 样 在 浏 
览 器 中 打开 localhost:8888 就 能 看 到 类 似 下 图 的 Jupyter 界面 。 在 此 镜像 中 运行 的 Jupyter 是 
一 个 网 页 版 的 代码 编辑 器 ， 它 支持 创建 、 上 传 、 修 改 和 运行 Python 程序 。 通 过 Jupyter, 才 
云 科技 提供 了 本 书 所 有 的 样 例 程序 ， 如 图 2-1 所 示 。 





> Jupyter ey 
FS Running Cluyters 
Sealect Noms 1 pertom actons on hem | Upioad [New = Iz 
百 “~ #1 Desp_Lenming_Wi TensorFlow | 0.12.0 
-~ i 


OD DO chaple03 











io DD Gimpierl0 
图 2-1 才 云 科技 提供 的 TensorFlow 镜像 Jupyter 页 面 示意 图 


-p 6006:6006 将 容器 内 运行 的 TensorFlow 可 视 化 工具 TensorBoard 映射 到 本 地 机 器 , 通 
过 在 浏览 器 中 打开 localhost:6006 就 可 以 将 TensorFlow 在 训练 时 的 状态 、 图 片 数 据 以 及 神经 
网 络 结构 等 信息 全 部 展示 出 来 。 此 镜像 会 将 所 有 输出 到 /log 目录 底下 的 日 志 全 部 可 视 化 。 
有 具体 如 何 使 用 TensorBoard 将 在 第 9 章 中 详细 介绍 。 
虽然 支持 GPU 的 Docker 镜像 ， 但 是 要 运行 这 些 镜像 需要 安装 最 新 的 Nvidia 驱动 以 及 
nvidia-docker”。 在 安装 完成 nvidia-docker 之 后 ， 可 以 通过 以 下 的 命令 运行 支持 GPU 的 
TensorFlow 镜像 。 在 镜像 启动 之 后 可 以 通过 和 上 面 类 似 的 方式 使 用 TensorFlow。 


$ nvidia-docker run -it -PP 8888:8888 -PP 6006:6006 \ 
cargo .caicloud.io/tensorflow/tensorflow:0.12.0-gpu 


QD) https://docs.docker.com/engine/reference/commandline/cli 中 给 出 了 Docker 命令 的 文档 。 
@@ http:Wiupyterorg/ 中 给 出 了 对 Jupyter 更 加 详细 的 介绍 。 
@ https://github.com/NVIDIA/nvidia-docker 中 介绍 了 nvidia-docker 的 基本 原理 和 安装 说 明 。 


30 


ww ai bbt.com DODOUDODDDOD 





第 2 章 TensorFlow 环境 搭建 


2.2.2 ”使 用 pip 安 闭 


pip 是 一 个 安装 、 管 理 Python 软件 包 的 工具 "， 通 过 pip 可 以 安装 已 经 打包 好 的 
TensorFlow 以 及 TensorFlow 所 需要 的 依赖 关系 。 目 前 TensorFlow 只 提供 了 部 分 操作 系统 下 
打包 好 的 安装 文件 ,在 其 他 操作 系统 下 安装 或 者 需要 安装 定制 化 代码 的 TensorFlow 请 参考 
2.2.3 小 节 。 通 过 pip 安装 可 以 分 为 以 下 三 步 。 


第 一 步 : 安装 pip 
# 在 Ubuntu/Iinux 64-bit 环境 下 安装 。 
$ sudo apt-get install python-pip python-deyv 


# 在 Mac 0S X 环境 下 安装 。 
$ sudo easy_install pip 
$ sudo easy install -~-upgrade six 


第 二 步 : 找到 合适 的 安装 包 URL 
仅 支持 CPU 的 TensorFlow 安装 包 有 : 


# Ubuntu/Linux 64-bit，Python 2.7 环境 。 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
cpu/tensorflow-0.9.0-cp27-none-linux x86 64.whl 


# Ubuntu/Linux 64-bit，Python 3.4 环境 。 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
cpu/tensorflow-0.9.0-cp34-cp34m-linux x86 64.whl 


# Ubuntu/Linux 64-bit, CPU only，Python 3.5 环境 。 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
cpu/tensorflow-0.9.0-cp35-cp35m-linux x86 64.whl 


# Mac OS X，Python 2.7 环境 。 , 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/mac/ 
tensorflow-0.9.0~py2-none-any .whl 


# Mac 0S X，Python 3.4 or 3.5 环境 。 


$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/mac/ 
tensorflow-0.9.0-py3-none-any.whl 


目前 只 有 在 安装 了 CUDA toolkit 7.5 和 CuDNN v4 的 64 位 Ubuntu 下 可 以 通过 pip 安装 


@ https://pip.pypa.io 中 给 出 pip 的 文档 。 
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支持 GPU 的 TensorFlow， 对 于 其 他 系统 或 者 其 他 CUDA/CuDNN 版 本 的 用 户 ， 则 需要 从 源 
码 进行 安装 来 支持 GPU 使 用 。 如 何 从 源码 进行 安装 将 在 2.2.3 小 节 中 详 述 。 下 面 给 出 了 文 
持 GPU 的 TensorFlow pip 安装 包 的 URL: 

# Python 2.7 环境 


$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
gpu/tensorflow-0.9.0-cp27-none-linux x86 64.whi 


# Python 3.4 环境 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
gpu/tensorflow-0.9.0-cp34-cp34m-linux x86 64.whl 


# Python 3.5 环境 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
gpu/tensorflow-0.9.0-cp35-cp35m-linux x86 64.Whl 


第 三 步 : 通过 pip 安装 TensorFlow 
# Python 2 环境 
$ sudo pip install --upgrade $TF BINARY URL 


# Python 3 环境 
$ sudo pip3 install --upgrade $TF BINARY URL 


通过 这 三 步 ，TensorFlow 环境 就 安装 完成 了 。 


2.2.3 ”从 源 代码 编译 安装 


从 源 代 码 安装 TensorFlow 的 过 程 主要 就 是 将 TensorFlow 源 代码 编译 成 pip 安装 包 的 过 
程 。 将 TensorFlow 的 源 代码 编译 为 pip 所 使 用 的 wheel 文件 之 后 ,通过 2.2.2 小 节 中 介绍 的 
pip install 的 方法 就 可 以 完成 安装 。 在 编译 TensorFlow 源 代码 之 前 需要 先 安装 TensorFlow 
所 依赖 的 其 他 工具 包 。 不 同 操作 系统 下 需要 安装 的 工具 包 略 微 有 一 些 差 别 ， 而 且 在 不 同 操 
作 系 统 下 安装 这 些 工 具 包 的 方法 也 不 大 一 样 ， 这 一 小 节 将 以 Ubuntu 14.04 和 Mac OS XX 为 
例 来 介绍 如 何 安装 TensorFlow 依赖 的 工具 包 ?。 


在 Ubuntu 14.04 下 安装 依赖 的 工具 包 
首先 需要 安装 2.1.2 小 节 中 介绍 的 编译 工具 Bazel。 安 装 Bazel， 首 先 要 安装 JDK8。 以 


@ 其 他 版 本 的 Linux 可 以 参考 Ubuntu 14.04 下 的 安装 方法 。 目前 TensorFlow 没有 比较 好 的 支持 在 
Windows 下 从 源码 安装 ，Windows 用 户 可 以 通过 2.2.1 节 中 介绍 的 Docker 来 使 用 TensorFlow。 
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下 代码 给 出 了 安装 JDKS8 的 方法 。 


$ sudo apt-get install software-properties-common 
$ sudo add-apt-repository ppa:webupd8team/java 

$ sudo apt-get update 

$ sudo apt-get install oracle-java8-installer 


然后 安装 Bazel 的 其 他 依赖 的 工具 包 : 


$ sudo apt-get install pkg-config zip g++ zliblg-dev unzip 


接着 在 Bazel 的 GitHub 发 布 页 面 下 载 安装 包 (https://github.com/bazelbuild/bazel/releas 
es/tag/0.3.1)。 其 中 0.3.1 为 Bazel 的 版 本 号 。 如 果 有 更 新 的 版 本 ， 可 以 相应 的 替换 上 面 连接 
中 的 版 本 号 。 在 这 个 页 面 中 下 载 安装 包 bazel-0.3.1-jdk7-installer-linux-x86_64.sh， 然 后 就 可 
以 通过 这 个 安装 包 来 安装 Bazel。 以 下 代码 实现 了 Bazel 的 安装 过 程 。 

5 chmod +x bazel-0.3.1-jdk7-installer-linux-x86 64.sh 


$ ./bazel-0.3.1-jdk7-installer-linux-x86 64.sh ~-user 
$ export PATH="$PATH: S$HOME/bin" 


Bazel 安装 完成 后 还 需要 通过 以 下 代码 来 安装 TensorFlow 的 依赖 的 其 他 工具 包 。 


# Python 2.,7 环境 
$5 sudo apt-get install python-numpy swig python-dev python-wheel 


# Python 3.x 环 境 

$ sudo apt-get install python3-numpy swig python3-dev Python3-wheel 

如 果 要 支持 GPU， 那么 还 需要 安装 Nvidia 的 Cuda Toolkit〈 版 本 需要 大 于 或 等 于 7.0) 
和 cuDNN (版 本 需要 大 于 或 等 于 vV2)。 而 且 TensorFlow 只 支持 Nvidia 计算 能 力 〈compnute 
capability) 大 于 3.0 的 GPU。 比 如 Nvidia Titan、Nvidia Titan X、Nvidia K20、Nvidia K40 
等 都 满足 要 求 ”。 

Cuda Toolkit 的 安装 包 以 及 安装 方法 可 登录 https://developer.nvidia.com/cuda-downloads 
获得 。 在 根据 引导 填写 完 操作 系统 相关 参数 之 后 ， 该 网 站 将 提供 Cuda 7.5 的 安装 包 及 详细 
安装 方法 。 登 录 https://developer.nvidia.com/cudnn 可 下 载 cuDNN 的 安装 包 。 在 下 载 之 前 需 
要 先 注册 ， 但 注册 是 完全 免费 的 。 注 册 完 成 后 可 以 下 载 cuDNN v4 Library for Linux， 其 中 
v4 可 以 替换 成 更 新 的 版 本 。 下 载 完成 后 ， 需 要 通过 以 下 命令 把 下 载 下 来 的 安装 包 复 制 到 
Cuda 的 目录 〈 这 里 假设 是 /usr/local/cuda): 


tar xvzf cudnn-7.5-linux-x64-v4.tgz 
sudo cp cudnn-7.5-linux-x64-v4/cudnn.h /usr/local/cuda/include 


四 https://developer.nvidia.com/cuda-gpus 中 列 出 了 所 有 GPU 的 计算 能 
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sudo cp cudnn-7.5-linux-x64-v4/libcudnn* /usr/1lLocal/cuada/Iib64 
sudo chmod a+r /usr/local/cuda/include/cudnn.h \ 
/usr/local/cuda/libé64/ libcudnn* 


在 Mac OS X 下 安装 依赖 工具 包 


Homebrew 是 Mac OS XX 下 一 个 软件 安装 工具 >， 通过 这 个 工具 可 以 很 方便 地 安装 比如 
Bazel，SWIG 等 TensorFlow 的 依赖 工具 。Homebrew 目 己 的 安装 过 程 也 很 简单 ， 以 下 代码 
给 出 了 它 的 安装 方法 : 


/usr/bin/ruby -e "$(curl -fsSL \ 
https;//raw.githubusercontent.com/Homebrew/install/master/install)" 


安装 完 Homebrew 后 就 可 以 通过 brew 来 安装 Bazel 和 SWIG: 


$ brew install bazel swig 


然后 可 以 通过 easy_install 来 安装 Python 相关 的 依赖 工具 : 


$ sudo easy install -U six 
$ sudo easy install -U numpy 
$ sudo easy install wheel 

“$ sudo easy install ipython 


如 果 需 要 支持 GPU, 在 安装 Cuda Toolkit 和 cuDNN 之 前 ,还 需要 通过 Homebrew 安装 
GNU coreutils: 


$ brew install coreutils 
和 Ubuntu 14.04 类 似 , https://developer.nvidia.com/cuda-downloads 网 站 提供 了 安装 最 新 
Cuda Toolkit 的 安装 包 与 安装 方法 ,但 在 Mac OS 义 下 可 以 通过 Homebrew Cask 来 直接 安装 : 


$ brew tap caskroom/cask 
$ brew cask install cuda 


Cuda Toolkit 安装 完成 之 后 需要 将 环境 变量 加 入 到 ~/.bash_profile 文件 中 : 


export CUDA HOME=/usr/local/cuda 
export DYLD LIBRARY PATH="$DYLD LIBRARY PATH: $CUDA HOME/1lib" 
export PATH="$CUDA HOME/bin:$PATH" 


https://developer.nvidia.com/cudnn 网 站 提供 了 cuDNN 的 安装 包 。 在 下 载 之 前 这 个 网 站 
需要 先 注册 ， 注 册 是 完全 免费 的 。 注 册 完 成 后 可 以 下 载 cuDNN v4 Library for OS X， 其 中 
v4 可 以 替换 成 更 新 的 版 本 。 下 载 完成 后 需要 将 文件 解压 并 放 到 Cuda Toolkit 的 目录 下 。 以 


QD http:Wbrew.sh 中 介绍 Homebrew 的 功能 。 
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下 代码 完成 了 这 个 过 程 


$ sudo mv include/cudnn.h /Developer/NVIDIA/CUDA-7.5/include/ 
$ sudo mv lib/libcudnn* /Developer/NVIDIA/CUDA-7.5/1ib 
$ sudo ln -s /Developer/NVIDIA/CUDA-7.5/1lib/libcudnn* /usr/local/cuda/lib/ 


配置 TensorFlow 编译 环境 


在 所 有 依赖 的 工具 包 都 安装 完成 之 后 就 可 以 开始 从 源码 来 安 状 TensorFlow 了 。 无论 在 
哪个 操作 系统 下 ， 要 从 源 代 码 开 始 安装 ， 首 先 需要 下 载 源 代码 。 通 过 以 下 命令 可 以 下 载 最 
新 的 TensorFlow 源 代 码 ; 


$ git clone https://github.com/tensorflow/tensorflow 


使 用 以 上 命令 将 下 载 TensorFlow 最 新 的 代码 。 如 果 需 要 下 载 之 前 发 布 的 版 本 ， 可 以 在 
上 述 命令 中 加 入 -b <branchname> 参 数 。 其 中 <branchname> 可 以 是 r0.7、r0.8、r0.9 等 。 如 果 
安装 r0.8 或 者 更 老 的 版 本 ， 还 需要 在 上 述 命 令 中 加 入 --recurse-submodules 参数 来 拉 取 
TensorFlow 依赖 的 其 他 工具 .源码 下 载 完成 之 后 , 需要 运行 configure 脚本 来 配置 环境 信息 : 


$ cd tensorflow 

$ /configure 

# 配置 Python 的 路 径 。 

Please specify the location of Python. [Default is /usr/bin/python]: 

# 配置 是 否 文 持 谷歌 云 平台 。 

Do you wish to build TensorFlow with Google Cloud Platform support? [y/N]N 
No Google Cloud Platform support will be enabled for TensorFlow 

# 配置 是 否 支 持 GPU。 

Do you wish to build TensorFlow with GPU support? [y/N] Y 

GPU support will be enabled for TensorFlow 

# 配置 GPU。 

Please specify which gcc nvcc should use as the host compiler. [Default is 
/usr/bin/gcc]: 

# 配置 Cuda SDK 版 本 。 

Please specify the Cuda SDK version you.want to use, e.g9. 7.0. [Leave empty 
to use system default]: 7.5 

# 配置 CUDA toolkit 目录 。 

Please specify the location where CUDA 7.5 toolkit is installed. Refer to 
README .md for more details. [Default is /usr/local/cudal: 

# 配置 Cudnn 版 本 。 

Please specify the Cudnn version you want to use. [Leave empty to use system 
default]: 4 

# 配置 cuDNN 目录 。 

Please specify the location where cuDNN 4 library is installed. Refer to 
README .md for more details. [Default is /usr/local/cudal: 


35 


ww ai bbt.com DODODDDDDC 





TensorFlow: 实战 Google 深度 学 习 框 架 


# 配置 GPU 计算 能 

Please specify a list of comma-separated Cuda compute capabilities you want 
to build with. 

You can find the- Compute capability of your device at: https://developer. 
nvidia.com/cuda-gpus. 

Please note that each additional compute capability significantly increases 
your build time and binary size. 


Setting up Cuda include 
Setting up Cuda 1ib 
Setting up Cuda bin 
Setting up Cuda nvvm 
Setting up CUPTI include 
Setting up CUPTI 1ib64 
Configuration finished 


当 环 境 配 置 完成 之 后 通过 Bazel 来 编译 pip 的 安装 包 ， 然 后 通过 pip 安国 : 


$ bazel build -c opt --config=cuda \ 
//tensorflow/tools/pip package:build Pip package 

$ bazel-bin/tensorflow/tools/pip package/build pip package \ 
/tmp/tensorflow pkg 

$ sudo pip install /tmp/tensorflow pkg/tensorflow-0.9.0-py2-none-any.whl 


第 一 个 命令 中 --config=cuda 参数 为 对 GPU 的 支持 。 如 果 不 需 要 文 持 GPU， 就 不 需要 


这 个 参数 了 。 最 后 一 行 中 wheel 安装 包 的 名 字 〈tensorflow-0.9.0-py2-none-any.whl) 和 系统 
环境 有 关 ， 使 用 pip 安装 之 前 可 以 先 通过 ls 命令 来 确认 安装 包 的 名 了 字 。 


2.3 TensorFlow 测试 样 例 


通过 2.2 节 中 介绍 的 方法 安装 好 TensorFlow 后 ， 在 这 一 节 中 将 给 出 一 个 简单 的 


TensorFlow 样 例 程序 来 实现 两 个 向 量 求 和 。TensorFlow 支持 C、C++H 和 Python 三 种 语言 ， 
但 是 它 对 Python 的 支持 是 最 全 面 的 ， 所 以 本 书 中 所 有 的 样 例 都 会 使 用 Python 语言 。 通 过 
本 节 给 出 来 的 简单 样 例 ,读者 可 以 测试 安装 好 的 TensorFlow 环境 , 同时 也 可 以 对 TensorFlow 
有 一 个 直观 的 认识 。 这 一 节 将 直接 使 用 Python 自 带 的 交互 界面 来 演示 这 个 简单 样 例 ， 
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在 进入 Python 交互 界面 之 后 ， 先 通过 import 操作 加 载 TensorFlow: 


>»>> Import 廿 EnsorfTIDW as tf 


上 图 显示 TensorFlow 已 经 成 功 加 载 了 。 Python 可 以 通过 重 命名 来 使 引用 更 加 方便 ,在 
本 书 中 都 会 将 “tensorflow” 简 写 为 “tf”。 然 后 定义 两 个 向 量 ，a 和 b; 


= tf,.constant([1.8,2.9|], name="a") 





t+.constant([2-.9,3.90|], name="b”) 


在 这 里 将 a 和 b 定义 为 了 两 个 常量 (tf.constant)， 一 个 为 [1.0,2.0]， 荔 一 个 为 [2.0,3.0]。 
在 两 个 加 数 定义 好 之 后 ， 将 这 两 个 回 量 加 起 来 ; 


熟悉 NumPy" 的 读者 会 发 现 ， 在 TensorFlow 之 中 ， 向量 的 加 法 也 是 可 以 直接 通过 加 号 
来 完成 的 。 最 后 输出 相 加 得 到 的 结果 : 


>>> Sess = t+:SesSs1lion 
>> sess,run(result) 


Wa 


(十 





-Tee-WAG EE 5.-.]，dtype= 和 float32) 


要 输出 相 加 得 到 的 结果 , 不 能 简单 地 直接 输出 result, 而 需要 先生 成 一 个 会 话 (session)， 
并 通过 一 个 这 个 会 话 (session) 来 计算 结果 。 到 此 ， 就 实现 了 一 个 非常 简单 的 TensorFlow 
模型 。 第 3 章 将 更 加 深入 地 介绍 TensorFlow 的 基本 概念 ， 并 将 TensorFlow 的 计算 模型 和 神 
经 网 络 模型 结合 起 来 。 


小 结 


在 本 章 中 首先 介绍 了 TensorFlow 主要 依赖 的 两 个 工具 一 一 Protocol Buffer 和 Bazel。 
Protocol Buffer 是 一 个 结构 数据 序列 化 的 工具 ， 在 TensorFlow 中 大 部 分 数据 结构 都 是 通过 
Protocol Buffer 的 形式 存储 的 。Bazel 是 一 个 谷歌 开源 的 编译 工具 ， 在 2.2 节 中 讲解 了 如 何 
通过 Bazel 编译 TensorFlow 的 源 代 码 。 谷 歌 官 方 给 出 的 大 部 分 样 例 程 序 也 是 通过 Bazel 编 
译 的 。 

在 介 绍 完 TensorFlow 所 依赖 的 工具 之 后 ，2.2 节 讲 解 了 TensorFlow 的 不 同安 装 方式 ， 
以 及 不 同安 装 方式 适用 的 不 同 场 景 。2.2,1 小 节 中 介绍 的 Docker 是 可 移植 性 最 强 的 一 种 安 
装 方式 ， 它 支持 大 部 分 的 操作 系统 (比如 Windows，Linux 和 Mac OS)。 但 Docker 目前 对 


Q) NumPy 是 一 个 科学 计算 的 Python 工具 包 ，http:Wwww.numpy.org 中 给 出 了 更 多 关于 NumPy 的 介绍 。 
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GPU 的 文 持 有 限 ， 而 且 Docker 对 本 地 开发 环境 的 支持 也 不 够 友好 。 在 本 地 最 方便 的 安装 
方式 是 使 用 pip。 使 用 pip 可 以 将 已 经 打包 好 的 安装 包 安 装 到 本 地 。 众 歌 官方 提供 了 不 同 版 
本 TensorFlow 的 pip 安装 包 。 这 种 方式 比较 适合 在 本 地 开发 TensorFlow 的 应 用 程序 ， 但 无 
法 修改 TensorFlow 本 身 。 最 后 一 种 方法 就 是 从 源码 安装 ， 这 种 方式 最 灵活 ， 但 比较 烦琐 。 
一 般 只 有 需要 修改 TensorFlow 本 身 或 者 需要 文 持 比较 特殊 的 GPU 时 才 会 被 用 到 。 

在 本 章 的 最 后 一 节 中 给 出 了 一 个 非常 简短 的 TensorFlow 测试 样 例 。 这 个 样 例 程 序 完 成 
了 两 个 问 量 加 法 的 功能 。 通 过 这 个 样 例 可 以 测试 安装 好 的 TensorFlow 环境 ， 同 时 也 可 以 对 
TensorFlow 有 一 个 直观 的 感受 。 在 第 3 章 中 将 更 加 详细 地 介绍 TensorFlow 中 的 基本 概念 ， 
并 讲解 如 何 通过 TensorFlow 来 实现 一 个 人 简单 神经 网 络 的 训练 过 程 。 
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在 第 2 章 中 介绍 了 如 何 安装 TensorFlow， 并 且 在 安装 好 的 TensorFlow 中 运行 了 一 个 简 
单 的 向 量 相 加 的 样 例 。 本 章 将 详细 地 介绍 TensorFlow 基本 概念 。 在 本 章 的 前 3 节 中 ， 将 分 
列 介 绍 TensorFlow 的 计算 模型 、 数 据 模 型 和 运行 模型 。 通 过 这 三 个 角度 对 TensorFlow 的 介 
绍 ， 读 者 可 以 对 TensorFlow 的 工作 原理 有 一 个 大 致 的 了 解 。 在 本 章 的 最 后 一 节 中 ， 将 简单 
介绍 神经 网 络 的 主要 计算 流程 ， 并 介绍 如 何 通 过 TensorFlow 实现 这 些 计算 。 


3.1 TensorFlow 计算 模型 一 一 计算 图 


计算 图 是 TensorFlow 中 最 基本 的 一 个 概念 ，TensorFlow 中 的 所 有 计算 都 会 被 转化 为 计 
算 图 上 的 节点 。3.1.1 小 节 将 详细 介绍 TensorFlow 中 计算 图 的 基本 概念 ， 然 后 在 3.1.2 小 节 
中 将 通过 一 些 简单 的 样 例 程序 说 明 TensorFlow 计算 图 的 使 用 方法 。 


3.1.1 计算 图 的 概念 


TensorFlow 的 名 字 中 已 经 说 明了 它 最 重要 的 两 个 概念 一 一 Tensor 和 Flow。Tensor 就 是 
张 量 。 张 量 这 个 概念 在 数学 或 者 物理 学 中 可 以 有 不 同 的 解释 ， 但 在 本 书 中 并 不 强调 它 本 身 
的 含义 。 在 TensorFlow 中 ， 张 量 可 以 被 简单 地 理解 为 多 维 数组 ， 在 3.2 节 中 将 对 张 量 做 更 
加 详细 的 介绍 。 如 果 说 TensorFlow 的 第 一 个 词 Tensor 表明 了 它 的 数据 结构 ， 那 么 Flow 则 
体现 了 它 的 计算 模型 。Flow 翻译 成 中 文 就 是 “ 流 ” 它 直 观 地 表达 了 张 量 之 间 通 过 计算 相 
互 转化 的 过 程 。TensorFlow 是 一 个 通过 计算 图 的 形式 来 表述 计算 的 编程 系统 。TensorFlow 
中 的 每 一 个 计算 都 是 计算 图 上 的 一 个 节点 ， 而 节点 之 间 的 边 描 述 了 计算 之 间 的 依赖 关系 。 
3-1 展示 了 通过 TensorBoard" 画 出 来 的 第 2 章 中 两 个 向 量 相 加 样 例 的 计算 图 。 


四 TensorBoard 是 TensorFlow 的 可 视 化 工具 ， 第 9 章 将 详细 介绍 这 个 工具 。 


ww ai bbt.com DODOUDDDDOD 





TensorFlow: 实战 Google 深度 学 习 框 架 


add 
a 
b 
3-] 通过 TensorBoard 可 视 化 向 量 相 加 的 计算 图 


图 3-1 中 的 每 一 个 节点 都 是 一 个 运算 ， 而 每 一 条 边 代 表 了 计算 之 间 的 依赖 天 系 。 如 果 
一 个 运算 的 输入 依赖 于 另 一 个 运算 的 输出 ， 那 么 这 两 个 运算 有 依赖 关系 。 在 图 3-1 中 , a 
和 b 这 两 个 常量 不 依赖 任何 其 他 计算 ”。 而 add 计算 则 依赖 读 取 两 个 常量 的 取 值 。 于 是 在 图 
3-1 中 可 以 看 到 有 一 条 从 a 到 add 的 边 和 一 条 从 b 到 add 的 边 。 在 图 3-1 中 ， 疫 有 任何 计算 
依赖 add 的 结果 ， 于 是 代表 加 法 的 节点 add 没有 任何 指向 其 他 节点 的 边 。 所 有 TensorFlow 
的 程序 都 可 以 通过 类 似 图 3-1 所 示 的 计算 图 的 形式 来 表示 ， 这 就 是 TensorFlow 的 基本 计算 


3.1.2 计算 图 的 使 用 


TensorFlow 程序 一 般 可 以 分 为 两 个 阶段 。 在 第 一 个 阶段 需要 定义 计算 图 中 所 有 的 计算 。 
比如 在 第 2 章 的 向 量 加 法 样 例 程序 中 首先 定义 了 两 个 输入 ， 然 后 定义 了 一 个 计算 来 得 到 它 
们 的 和 。 第 二 个 阶段 为 执行 计算 ， 这 个 阶段 将 在 3.3 节 中 介绍 。 以 下 代码 给 出 了 计算 定义 
阶段 的 样 例 。 

import tensorflow as tf 

a = tf.constant ([1.0, 2.0]; name="a!") 

b = tf.constant([2.0, 3.0], name="b") 

result =a+hb 

在 Python 中 一 般 会 采用 “import tensorflow as tf” 的 形式 来 载 入 TensorFlow， 这 样 可 以 
使 用 “tf” 来 代 苦 “tensorflow” 作 为 模块 名 称 ， 使 得 整个 程序 更 加 人 简洁。 这 是 TensorFlow 
中 非常 常用 的 技巧 ， 在 本 书后 面 的 章节 中 将 会 全 部 采用 这 种 加 载 方式 。 在 这 个 过 程 中 ， 
TensorFlow 会 自动 将 定义 的 计算 转化 为 计算 图 上 的 节点 。 在 TensorFlow 程序 中 ， 系 统 会 目 
动 维护 一 个 默认 的 计算 图 , 通过 tf.get_default graph 函数 可 以 获取 当前 默认 的 计算 图 。 以 下 
代码 示意 了 如 何 获 取 默 认 计 算 图 以 及 如 何 查 看 一 个 运算 所 属 的 计算 图 。 

# 通过 a .graph 可 以 查看 张 量 所 属 的 计算 图 。 因 为 没有 特意 指定 ， 所 以 这 个 计算 图 应 该 等 于 


# 当前 默认 的 计算 图 。 所 以 下 面 这 个 操作 输出 值 为 True。 
print(a.graph is tf.get default graph ()) 


QD 为 了 建 模 的 方便 ，TensorFlow 会 将 常量 转化 成 一 种 永远 输出 固定 值 的 运算 。 
1 
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除了 使 用 默认 的 计算 图 ，TensorFlow 支持 通过 给 Graph 函数 来 生成 新 的 计算 图 。 不 同 计 
算 图 上 的 张 量 和 运算 都 不 会 共享 。 以 下 代码 示意 了 如 何在 不 同 计算 图 上 定义 和 使 用 变量 ”。 


import tensorflow as tf 


gl1 = tf.Graph'() 
with gl.as default (): 
# 在 计算 图 gl 中 定义 变量 “v”， 并 设置 初始 值 为 0。 
V = tf.get variable( 
"v", initializer=tf.zeros initializer (shape=[1])) 


g2 = tf.Graph() 
with g2.as default (): 
# 在 计算 图 g2 中 定义 变量 “v”， 并 设置 初始 值 为 1。 
V = tf.get variable ( 
"v", initializer=tf.ones initializer (shape=[1])) 


# 在 计算 图 sl 中 读 取 变量 “v” 的 取 值 。 

with tf.Session(graph=gl1l) as sess: 
tf.initialize all Variables () .zun() 
with tf.variable scope("", reuse=True): 


# 在 计算 图 gl 中 ， 变 量 “v” 的 取 值 应 该 为 0， 所 以 下 面 这 行 会 输出 [0.]。 


print (sess.run(tf.get variable("v"))) 


# 在 计算 图 g2 中 读 取 变量 “v” 的 取 值 。 

with tf.Session(graph=g2) as sess: 
tf.initialize all variables() .run() 
with tf.variable scope("", reuse=True): 


# 在 计算 图 g2 中 ， 变 量 “v” 的 取 值 应 该 为 1， 所 以 下 面 这 行 会 输出 [1.]。 
print (sess.run(tf.get variable("v"))) 
上 面 的 代码 产生 了 两 个 计算 图 ， 每 个 计算 图 中 定义 了 一 个 名 字 为 “v” 的 变量 。 在 计算 
图 gl 中 , 将 v 初始 化 为 0; 在 计算 图 g2 中 ,将 v 初始 化 为 1。 可 以 看 到 当 运 行 不 同 计算 图 
时 ， 变 量 v 的 值 也 是 不 一 样 的 。TensorFlow 中 的 计算 图 不 仅仅 可 以 用 来 隔离 张 量 和 计算 ， 
它 还 提供 了 管理 张 量 和 计算 的 机 制 。 计 算 图 可 以 通过 给 Graph.device 函数 来 指定 运行 计算 
的 设备 。 这 为 TensorFlow 使 用 GPU 提供 了 机 制 。 下 面 的 程序 可 以 将 加 法 计算 跑 在 GPU 上 。 
g = tf.Graph() 
# 指定 计算 运行 的 设备 。 
with g.device('/gpu:0'): 
result = a+Db 


@ 第 4 章 将 更 加 详细 地 介绍 TensorFlow 中 变量 的 概念 。 
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具体 使 用 GPU 的 方法 将 在 第 10 章 详 述 。 有 效 地 整理 TensorFlow 程序 中 的 资源 也 是 计 
算 图 的 一 个 重要 功能 。 在 一 个 计算 图 中 ， 可 以 通过 集合 (collection) 来 管理 不 同类 别 的 资 
源 。 比 如 通过 tfadd to_collection 函数 可 以 将 资源 加 入 一 个 或 多 个 集合 中 ， 然 后 通过 
tf.get_collection 获取 一 个 集合 里 面 的 所 有 资源 。 这 里 的 资源 可 以 是 张 量 、 变 量 或 者 运行 
TensorFlow 程度 所 需要 的 队列 资源 ， 等 等 。 为 了 方便 使 用 ，TensorFlow 也 自动 管理 了 一 些 
最 常用 的 集合 ， 表 3-1 总 结 了 最 常用 的 几 个 自动 维护 的 集合 。 
表 3-1 TensorFlow 中 维护 的 集合 列表 


可 学 习 的 变量 《一般 指 神经 网 络 中 | 模型 训 综 、 生 成 模型 可 视 化 内 容 
的 参数 ) 


日 志 生成 相关 的 张 地 ET 
CveveRunm 
TIETTTTET 






3.2 TensorFlow 数据 模型 一 一 张 量 


3.1 节 介 绍 了 使 用 计算 图 的 模型 来 描述 TensorFlow 中 的 计算 。 这 一 个 节 将 介绍 
TensorFlow 中 另外 一 个 基础 概念 一 一 张 量 。 张 量 是 TensorFlow 管理 数据 的 形式 ， 在 3.2.1 
小 节 中 将 介绍 张 量 的 一 些 基 本 属性 . 然后 在 3.2.2 小 节 中 将 介绍 如 何 通过 张 量 来 保存 和 获取 
TensorFlow 计算 的 结果 。 


3.2.1 ” 张 量 的 概念 


从 TensorFlow 的 名 宇 就 可 以 看 出 张 量 〈tensor) 是 一 个 很 重要 的 概念 。 在 TensorFlow 
程序 中 ， 所 有 的 数据 都 通过 张 量 的 形式 来 表示 。 从 功能 的 角度 上 看 ， 张 量 可 以 被 简单 理解 
为 多 维 数组 。 其 中 零 阶 张 量 表示 标量 (scalar), 也 就 是 一 个 数 ?; 第 一 阶 张 量 为 向 量 (vector)， 
也 就 是 一 个 一 维 数组 ; 第 nn 阶 张 量 可 以 理解 为 一 个 1 维 数 组 。 但 张 量 在 TensorFlow 中 的 实 
现 并 不 是 直接 采用 数组 的 形式 ， 它 只 是 对 TensorFlow 中 运算 结果 的 引用 。 在 张 量 中 并 没有 
真正 保存 数字 ， 它 保存 的 是 如 何 得 到 这 些 数字 的 计算 过 程 。 还 是 以 向 量 加 法 为 例 ， 当 运行 


外 张 量 的 类 型 也 可 以 是 宇 符 串 ， 但 在 本 书 中 不 做 过 多 的 讨论 。 
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如 下 代码 时 ， 并 不 会 得 到 加 法 的 结果 ， 而 会 得 到 对 结果 的 一 个 引用 。 


Import tensorflow as tf 

# 七 E.Constant 是 一 个 计算 ， 这 个 计算 的 结果 为 一 个 张 量 ， 保 存在 变量 a 中 。 
a = tf.constant ([1].0; 2.0], name="a") 

b = tf.constant([2.0, 3.0], name="b") 

result = tf.add(a, b, name="add") 


print result 
ni 


输出 : 
Tensor ("add:0", shape=(2,), dtype=float32) 


有 


从 上 面 的 代码 可 以 看 出 TensorFlow 中 的 张 量 和 NumPy 中 的 数组 不 同 ，TensorFlow 计 
算 的 结果 不 是 一 个 具体 的 数字 ， 而 且 一 个 张 量 的 结构 。 从 上 面 代 码 的 运行 结果 可 以 看 出 ， 
一 个 张 量 中 主要 保存 了 三 个 属性 : 名 字 ‘name)、 维 度 (shape) 和 类 型 (type)。 

张 量 的 第 一 个 属性 名 字 不 仅 是 一 个 张 量 的 唯一 标识 符 ， 它 同样 也 给 出 了 这 个 张 量 是 如 
何 计算 出 来 的 。 在 3.1.2 小 节 中 介绍 了 TensorFlow 的 计算 都 可 以 通过 计算 图 的 模型 来 建立 ， 
而 计算 图 上 的 每 一 个 节点 代表 了 一 个 计算 ， 计 算 的 结果 就 保存 在 张 量 之 中 。 所 以 张 量 和 计 
算 图 上 节点 所 代表 的 计算 结果 是 对 应 的 。 这 样张 量 的 命名 就 可 以 通过 “node:src_output” 的 
形式 来 给 出 。 其 中 node 为 节点 的 名 称 ，src_output 表示 当前 张 量 来 自 节 点 的 第 几 个 输出 。 
比如 上 面 代码 打出 来 的 “add:0” 就 说 明了 result 这 个 张 量 是 计算 节点 “add” 输 出 的 第 一 个 
结果 《〈 编 号 从 0 开始 )。 

张 量 的 第 二 个 属性 是 张 量 的 维度 《shape)。 这 个 属性 描述 了 一 个 张 量 的 维度 信息 。 比 
如 上 面 样 例 中 shape=(2,) 说 明了 张 量 result 是 一 个 一 维 数组 ， 这 个 数组 的 长 度 为 2。 维 
度 是 张 量 一 个 很 重要 的 属性 ， 围 绕 张 量 的 维度 TensorFlow 也 给 出 了 很 多 有 用 的 运算 ， 在 这 
里 先 不 一 一 列举 ， 在 后 面 的 章节 中 将 使 用 到 部 分 运算 。 

张 量 的 第 三 个 属性 是 类 型 〈type)， 每 一 个 张 量 会 有 一 个 唯一 的 类 型 。TensorFlow 会 对 
参与 运算 的 所 有 张 量 进行 类 型 的 检查 ， 当 发 现 类 型 不 匹配 时 会 报错 。 比 如 运行 下 面 这 段 程 
序 时 就 会 得 到 类 型 不 匹配 的 错误 : 

import tensorflow as tf 

a 三 tf.constant([i, 2], name="a") 


b = tf.constant([2.0, 3.0], name="Db") 
result =a+Db 


这 段 程 序 和 上 面 的 样 例 基本 一 模 一 样 , 唯一 不 同 的 是 把 其 中 一 个 加 数 的 小 数 点 去 掉 了 。 
这 会 使 得 加 数 a 的 类 型 为 整数 而 加 数 b 的 类 型 为 实数 ， 这 样 程序 会 报 类 型 不 匹配 的 错误 : 


ValueError: Tensor conversion requested dtype int32 for Tensor with dtype 
float32: ‘Tensor("b:0", shape=(2,), dtype=float32)' 
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如 果 将 第 一 个 加 数 指定 成 实数 类 型 “a=tf.constant([1, 2], name="a", dtype=tf,float32)”, 
那么 两 个 加 数 的 类 型 相同 就 不 会 报错 了 。 如 果 不 指定 类 型 ，TensorFlow 会 给 出 默认 的 类 型 ， 
比如 不 带 小 数 点 的 数 会 被 默认 为 int32， 带 小 数 点 的 会 默认 为 float32。 因 为 使 用 默认 类 型 有 
可 能 会 导致 潜在 的 类 型 不 匹配 问题 ， 所 以 一 般 建 议 通过 指定 dtype 来 明确 指出 变量 或 者 党 
” 量 的 类 型 。TensorFlow 支持 14 种 不 同 的 类 型 ， 主 要 包括 了 实数 〈ttfloat32、 tf.float64)、 
整数 (tfint8、 让 int16、 tint32、 引 int64、tfuint8)、 布尔 型 (tf.bool) 和 复数 (tf.complex64、 
tf.complex128)。 


3.2.2 ” 张 量 的 使 用 


和 TensorFlow 的 计算 模型 相 比 ，TensorFlow 的 数据 模型 相对 比较 简单 。 张 量 使 用 主要 
可 以 总 结 为 两 大 类 。 


第 一 类 用 途 是 对 中 间 计 算 结果 的 引用 。 当 一 个 计算 包含 很 多 中 间 结 果 时 ， 使 用 张 量 可 
以 大 大 提高 代码 的 可 读 性 。 以 下 为 使 用 张 量 和 不 使 用 张 量 记录 中 间 结 果 来 完成 向量 相 加 的 
功能 的 代码 对 比 。 

# 使 用 张 量 记录 中 间 结 果 

a = tf.constant([l1.0, 2.0], name="a") 


b = tf.constant([2.0, 3.0], name="Db") 
result = a+hb 


# 直接 计算 向 量 的 和 , 这样 可 读 性 会 比较 差 。 

result = tf.constant([1.0, 2.0], name="a") + 

tf.constant([2.0, 3.0],; name="b") 

从 上 面 的 样 例 程序 可 以 看 到 a 和 hb 其 实 就 是 对 常量 生成 这 个 运算 结果 的 引用 ， 这 样 在 
做 加 法 时 就 可 以 直接 使 用 这 两 个 变量 ， 而 不 需要 再 去 生成 这 些 常 量 。 当 计算 的 复杂 度 增加 
时 《比如 在 构建 深层 神经 网 络 时 ) 通过 张 量 来 引用 计算 的 中 间 结 果 可 以 使 代码 的 可 阅读 性 
大 大 提升 。 同 时 通过 张 量 来 存储 中 间 结 果 ， 这 样 可 以 方便 获取 中 间 结 果 。 比 如 在 卷 积 神经 
网 络 ? 中 ， 卷 积 层 或 者 池 化 层 有 可 能 改变 张 量 的 维度 ,通过 result.get_ shape 函数 来 获取 结果 
张 量 的 维度 信息 可 以 免 去 人 工 计 算 的 麻烦 。 

使 用 张 量 的 第 二 类 情况 是 当 计 算 图 构造 完成 之 后 ， 张 量 可 以 用 来 获得 计算 结果 ， 也 就 
是 得 到 真实 的 数字 。 虽 然 张 量 本 身 没 有 存储 具体 的 数字 ， 但 是 通过 下 面 3.3 小 节 中 介绍 的 
会 话 (session )， 就 可 以 得 到 这 些 有 具体 的 数字 。 比 如 在 上 述 代 码 中 ， 可 以 使 用 
tfSession().run(result) 语 句 来 得 到 计算 结果 。 


Q 第 6 章 将 介绍 卷 积 神经 网 络 。 
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3.3 TensorFlow 运行 模型 一 一 会 话 


前 面 的 两 节 介 绍 了 TensorFlow 是 如 何 组 织 数 据 和 运算 的 。 本 节 将 介绍 如 何 使 用 
TensorFlow 中 的 会 话 (session) 来 执行 定义 好 的 运算 。 会 话 拥 有 并 管理 TensorFlow 程序 运 
行 时 的 所 有 资源 。 当 所 有 计算 完成 之 后 需要 关闭 会 话 来 帮助 系统 回收 资源 ， 否 则 就 可 能 出 
现 资源 泄漏 的 问题 。TensorFlow 中 使 用 会 话 的 模式 一 般 有 两 种 ， 第 一 种 模式 需要 明确 调用 
会 话 生 成 函数 和 关闭 会 话 函 数 ， 这 种 模式 的 代码 流程 如 下 。 

# 创建 一 个 会 话 。 

Sess = tf.Sessionl\() 

# 使 用 这 个 创建 好 的 会 话 来 得 到 关心 的 运算 的 结果 。 比 如 可 以 调用 sess.runl(result)， 

# 来 得 到 3.1 节 样 例 中 张 量 result 的 取 值 。 

sess.run(...) 

# 关闭 会 话 使 得 本 次 运行 中 使 用 到 的 资源 可 以 被 释放 。 

sess.close!() 

使 用 这 种 模式 时 ， 在 所 有 计算 完成 之 后 ， 需 要 明确 调用 Session.close 函数 来 天 闭会 话 
并 释放 资源 。 然 而 ， 当 程序 因为 异常 而 退出 时 ， 关 财会 话 的 函数 可 能 就 不 会 被 执行 从 而 导 
致 资源 泄漏 。 为 了 解决 异常 退出 时 资源 释放 的 问题 ，TensorFlow 可 以 通过 Python 的 上 下 文 
管理 器 来 使 用 会 话 。 以 下 代码 展示 了 如 何 使 用 这 种 模式 。 

# 创建 一 个 会 话 ， 并 通过 Python 中 的 上 下 文 管 理 器 来 管理 这 个 会 话 。 

with tf.Session() as sess: 

# 使 用 这 创建 好 的 会 话 来 计算 关心 的 结果 。 
sess.run(...) 


# 不 需要 再 调用 “Session.close() ”函数 来 关闭 会 话 ， 
# 当 上 下 文人 退出 时 会 话 关闭 和 资源 释放 也 自动 完成 了 。 


通过 Python 上 下 文 管理 器 的 机 制 ， 只 要 将 所 有 的 计算 放 在 “with” 的 内 部 就 可 以 。 当 
上 下 文 管理 器 退出 时 候 会 自动 释放 所 有 资源 。 这 样 既 解决 了 因为 异常 退出 时 资源 释放 的 问 
题 ， 同 时 也 解决 了 忘记 调用 Session.close 函数 而 产生 的 资源 泄 。 

3.1 节 介绍 过 TensorFlow 会 自动 生成 一 个 默认 的 计算 图 ， 如 果 没 有 特殊 指定 ， 运 算 会 自 
动 加 入 这 个 计算 图 中 。TensorFlow 中 的 会 话 也 有 类 似 的 机 制 ， 但 TensorFlow 不 会 自动 生成 默 
认 的 会 话 ， 而 是 需要 手动 指定 。 当 默认 的 会 话 被 指定 之 后 可 以 通过 tf.Tensor.eval 函数 来 计算 
一 个 张 量 的 取 值 。 以 下 代码 展示 了 通过 设 定 默 认 会 话 计算 张 量 的 取 值 。 

sess = tf.Session () 


with sess.as default (): 
print (result .eval ()) 


以 下 代码 也 可 以 完成 相同 的 功能 。 
45 


ww ai bbt.com DODOUDDDDOD 





TensorFlow: 实战 Google 深度 学 习 框架 


SEss = tf.Session () 


# 下 面 的 两 个 命令 有 相同 的 功能 。 
print (sess.runl(result)) 
print (result.eval (session=sess)) 


在 交互 式 环境 下 (比如 Python 脚本 或 者 Jupyter 的 编辑 器 下 )， 通 过 设置 默认 会 话 的 方 
式 来 获取 张 量 的 取 值 更 加 方便 。 所 以 TensorFlow 提供 了 一 种 在 交互 式 环境 下 直接 构建 默认 
会 话 的 函数 。 这 个 函数 就 是 t 给 InteractiveSession。 使 用 这 个 函数 会 自动 将 生成 的 会 话 注册 为 
默认 会 话 。 以 下 代码 展示 了 引 InteractiveSession 函数 的 用 法 。 

sess = tf, InteractiveSession 1) 


print (result.eval ()) 
sess.close() 


通过 tf.InteractiveSession 函数 可 以 省 去 将 产生 的 会 话 注册 为 默认 会 话 的 过 程 。 无 论 使 
用 哪 种 方法 都 可 以 通过 ConfigProto Protocol Buffere 来 配置 需要 生成 的 会 话 。 下 面 给 出 了 通 
过 ConfigProto 配置 会 话 的 方法 : 
config = tf.ConfigProto(allow soft placement=True, 
log device placement=True) 


sessl = tf. InteractiveSession (config=config) 
sess2 = tf, Session(config=config) 


通过 ConfigProto 可 以 配置 类 似 并 行 的 线程 数 、GPU 分 配 策略 、 运 算 超 时 时 间 等 参数 。 
在 这 些 参 数 中 ， 最 常 使 用 的 有 两 个 。 第 一 个 是 allow_ soft _ placement， 这 是 一 个 布尔 型 的 参 
数 ， 当 它 为 True 的 时 候 ， 在 以 下 任意 一 个 条 件 成 立 的 时 候 ，GPU 上 的 运算 可 以 放 到 CPU 
上 进行 : 

1. 运算 无 法 在 GPU 上 执行 。 

2. 没有 GPU 资源 (比如 运算 被 指定 在 第 二 个 GPU 上 运行 , 但 是 机 器 只 有 一 个 GPU)。 

3， 运算 输入 包含 对 CPU 计算 结果 的 引用 。 

这 个 参数 的 默认 值 为 False， 但 是 为 了 使 得 代码 的 可 移植 性 更 强 ， 在 有 GPU 的 环境 下 
这 个 参数 一 般 会 被 设置 为 True。 不 同 的 GPU 驱动 版 本 可 能 对 计算 的 支持 有 了 略微 的 区 别 , 通 
过 将 allow_soft _ placement 参数 设 为 True， 当 某 些 运算 无 法 被 当前 GPU 支持 时 ， 可 以 自动 
调整 到 CPU 上 ， 而 不 是 报错 。 类 似 的 ， 通 过 将 这 个 参数 设置 为 True 可 以 让 程序 在 拥有 不 
同 数量 的 GPU 机 器 上 顺利 运行 。 

第 二 个 使 用 得 比较 多 的 配置 参数 是 log _ device placement。 这 也 是 一 个 布尔 型 的 参数 ， 
当 它 为 True 时 日 志 中 将 会 记录 每 个 节点 被 安排 在 了 哪个 设备 上 以 方便 调试 。 而 在 生产 环境 
中 将 这 个 参数 设置 为 False 可 以 减少 日 志 


Q) Protocol Buffer 在 第 2 章 中 有 介绍 。 
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3.4 TensorFlow 实现 神经 网 络 


上 面 3 节 从 不 同 角度 介绍 了 TensorFlow 的 基本 概念 。 在 这 一 节 中 ， 将 结合 神经 网 络 的 
功能 进一步 介绍 如 何 通 过 TensorFlow 来 实现 神经 网 络 。 首 先 3.4.1 小 节 将 通过 TensorFlow 
游乐 场 来 简单 介绍 神经 网 络 的 主要 功能 以 及 计算 流程 。 然后 3.4.2 小 节 将 介绍 神经 网 络 的 前 
向 传播 算法 (forward-propagation)， 并 给 出 使 用 TensorFlow 的 代码 实现 。 接 着 3.4.3 小 节 将 
介绍 如 何 通过 TensorFlow 中 的 变量 来 表达 神经 网 络 的 参数 。 在 3.4.4 小 节 中 将 介绍 神经 网 
络 反 向 传播 (back-propagation) 算法 的 原理 以 及 TensorFlow 对 反 向 传播 算法 的 支持 。 最 后 
在 3.4.5 小 节 中 将 给 出 一 个 完整 的 TensorFlow 程序 在 随机 的 数据 上 训练 一 个 简单 的 神经 网 络 。 


3.4.1 TensorFlow 游乐 场 及 神经 网 络 合 介 
这 一 小 节 将 通过 TensorFlow 游乐 场 来 快速 介绍 神经 网 络 的 主要 功能 。TensorFlow 游乐 


场 〈http:/playground.tensorflow.org) 是 一 个 通过 网 页 浏览 器 就 可 以 训练 的 简单 神经 网 络 并 
实现 了 可 视 化 训练 过 程 的 工具 。 图 3-2 给 出 了 TensorFlow 游乐 场 默 认 设置 的 蕉 图 。 


nker With a Neural Network Pght Here in Your BIGW 
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图 3-2 ”TensorFlow 游乐 场 界 面 截 图 


从 图 3-2 中 可 以 看 出 ，TensorFlow 游乐 场 的 左 侧 提供 了 4 个 不 同 的 数据 集 来 测试 神经 
网 络 。 默 认 的 数据 为 左上 和 角 被 框 出 来 的 那个 。 被 选中 的 数据 也 会 显示 在 图 3-2 中 最 右边 的 
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“OUTPUT” 栏 下 。 在 这 个 数据 中 ， 可 以 看 到 一 个 二 维 平面 上 有 黑色 或 者 灰色 的 点 ， 每 一 个 
小 点 代表 了 一 个 样 例 ， 而 点 的 颜色 代表 了 样 例 的 标签 。 因 为 点 的 颜色 只 有 两 种 ， 所 以 这 是 
一 个 二 分 类 的 问题 。 在 这 里 举 一 个 例子 来 说 明 这 个 数据 可 以 代表 的 实际 问题 。 假 设 需要 判 
断 某 工厂 生产 的 零件 是 否 合格 ， 那 么 灰色 的 点 可 以 表示 所 有 合格 的 零件 而 黑色 的 表示 不 合 
格 的 零件 。 这 样 判 断 一 个 零件 是 否 合格 就 变 成 了 区 分 点 的 颜色 。 

为 了 将 一 个 实际 问题 对 应 到 平面 上 不 同 颜色 点 的 划分 ， 还 需要 将 实际 问题 中 的 实体 ， 
比如 上 述 例子 中 的 零件 ， 变 成 平面 上 的 一 个 点 "。 这 就 是 特征 提取 解决 的 问题 。 还 是 以 零件 
为 例 ， 可 以 用 零件 的 长 度 和 质量 来 大 致 描述 一 个 零件 。 这 样 一 个 物理 意义 上 的 零件 就 可 以 
被 转化 成 长 度 和 质量 这 两 个 数字 。 在 机 器 学 习 中 ， 所 有 用 于 描述 实体 的 数字 的 组 合 就 是 一 
个 实体 的 特征 向 量 〈feature vector)。 在 第 1 章 中 介绍 过 ， 特 征 向 量 的 提取 对 机 器 学 习 的 效 
果 至 关 重 要 ， 如 何 提取 特征 本 书 不 再 缆 述 。 通 过 特征 提取 ， 就 可 以 将 实际 问题 中 的 实体 转 
化 为 空间 中 的 点 。 假 设 使 用 长 度 和 质量 作为 一 个 零件 的 特征 癌 量 ， 那 么 每 个 零件 就 是 二 维 
平面 上 的 一 个 点 。TensorFlow 游乐 场 中 FEATURES 一 栏 对 应 了 特征 问 量 。 在 本 小 节 的 样 例 
中 ， 可 以 认为 xj 代表 一 个 零件 的 长 度 ， 而 xs 代 表 零 件 的 质量 。 

特征 同 量 是 神经 网 络 的 输入 ， 神 经 网 络 的 主体 结构 显示 在 了 图 3-2 的 中 间 位 置 。 目 前 
主流 的 神经 网 络 都 是 分 层 的 结构 ， 第 一 层 是 输入 层 ， 代 表 特 征 同 量 中 每 一 个 特征 的 取 值 。 
比如 如 果 一 个 零件 的 长 度 是 0.5， 那 么 xj 的 值 就 是 0.5。 同 一 层 的 节点 不 会 相互 连接 ， 而 且 
每 一 层 只 和 下 一 层 连 接 ， 直 到 最 后 一 层 作为 输出 层 得 到 计算 的 结果 *。 在 二 分 类 问题 中 ， 比 
如 判断 零件 是 否 合格 ， 神 经 网 络 的 输出 层 往 往 只 包含 一 个 节点 ， 而 这 个 节点 会 输出 一 个 实 
数值 。 通 过 这 个 输出 值 和 一 个 事先 设 定 的 阔 值 ， 就 可 以 得 到 最 后 的 分 类 结果 。 以 判断 零件 
合格 为 例 ， 可 以 认为 当 输 出 的 数值 大 于 0 时 ， 给 出 的 判断 结果 是 零件 合格 ， 反 之 则 零件 不 
合格 。 一 般 可 以 认为 当 输 出 值 离 闪 值 越 远 时 得 到 的 答案 越 可 靠 。 

在 输入 和 输出 层 之 间 的 神经 网 络 叫做 隐藏 层 ， 一 般 一 个 神经 网 络 的 隐藏 层 越 多 ， 这 个 
神经 网 络 越 “ 深 ”。 而 所 谓 深 度 学 习 中 的 这 个 “深度 ”和 神经 网 络 的 层 数 也 是 密切 相关 的 。 
在 TensorFlow 游乐 场 中 可 以 通过 点 击 “+” 或 者 “-” 来 增加 /减少 神经 网 络 隐藏 层 的 数量 。 
除了 可 以 选择 神经 网 络 的 深度 ，TensorFlow 游乐 场 也 支持 选择 神经 网 络 每 一 层 的 节点 数 以 
及 学 习 率 〈learning rate)、 激 活 函 数 (activation)、 正 则 化 (regularization)。 如 何 使 用 这 些 
参数 将 在 后 面 的 章节 中 讨论 。 在 本 小 节 中 都 直接 使 用 TensorFlow 游乐 场 默 认 的 设置 。 当 所 
有 配置 都 选 好 之 后 ， 可 以 通过 左上 角 的 开始 标志 “人 @ ”来 训练 这 个 神经 网 络 。 图 3-3 中 给 
出 了 和 迭代 训练 100 轮 之 后 的 情况 。 


J 在 真实 问题 中 ， 一 般 会 从 实体 中 抽取 更 多 的 特征 ， 所 以 一 个 实体 会 被 表示 为 高 维 空间 中 的 点 。 
他 有 一 些 神经 网 络 是 可 以 跨 层 连接 的 ， 但 目前 大 部 分 神经 网 络 结构 中 都 只 是 相 邻 两 层 有 连接 。 
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图 3-3 ”TensorFlow 游乐 场 训练 100 轮 之 后 的 截图 


如 何 训 练 一 个 神经 网 络 将 在 3.4.4 小 节 中 介绍 ， 在 这 里 主要 介绍 如 何 解读 TensorFlow 
游乐 场 的 训练 结果 。 在 图 3-3 中 ， 一 个 小 格子 代表 神经 网 络 中 的 一 个 节点 ， 而 边 代 表 节 点 
之 间 的 连接 。 每 一 个 节点 和 边 都 被 涂 上 了 或 深 或 浅 的 颜色 ， 但 边 上 的 颜色 和 格子 中 的 颜色 
含义 有 略微 的 区 别 。 每 一 条 边 代 表 了 神经 网 络 中 的 一 个 参数 ， 它 可 以 是 任意 实数 。 神 经 网 
络 就 是 通过 对 参数 的 合理 设置 来 解决 分 类 或 者 回归 问题 的 。 边 上 的 颜色 体现 了 这 个 参数 的 
取 值 ， 当 边 的 颜色 越 深 时 ， 这 个 参数 取 值 的 绝对 值 越 大 ， 当 边 的 颜色 接近 白色 时 ， 这 个 参 
数 的 取 值 接近 于 0 。 

每 一 个 节点 上 的 颜色 代表 了 这 个 节点 的 区 分 平面 。 有 具体 来 说 ， 如 果 把 这 个 平面 当成 一 
个 卡 迪 尔 坐 标 系 ， 这 个 平面 上 的 每 一 个 点 就 代表 了 《xj，xz) 的 一 种 取 值 。 而 这 个 点 的 颜色 
就 体现 了 zi， 妆 在 这 种 取 值 下 这 个 节点 的 输出 值 。 和 边 类 似 ， 当 节点 的 输出 值 的 绝对 值 越 
大 时 ， 颜 色 越 深 8。 下 面 将 具体 解读 输入 层 x) 所 代表 的 节点 。 从 图 3-3 中 可 以 看 到 zy 这 个 
节点 的 区 分 平面 就 是 y 轴 。 因 为 这 个 节点 的 输出 就 是 x 本 身 的 值 ， 所 以 当 坟 小 于 0 时 ,这 
个 节点 的 输出 就 是 负数 ， 而 xj 大 于 0 时 输出 的 就 是 正 数 。 于 是 y 轴 的 左 侧 都 为 灰色 ， 而 右 
侧 都 为 黑色 。 图 3-3 中 其 他 节点 可 以 类 似 的 解读 。 唯 一 特殊 的 是 最 右边 OUTPUT 栏 下 的 


@ 在 TensorFlow 游乐 场 网 站 上 ， 边 的 颜色 有 黄色 〈 文 中 浅 色 部 分 ) 和 蓝 色 〈 文 中 深 色 部 分 ) 的 区 别 ， 黄 
色 越 深 表 示 负 得 越 大 ， 蓝 色 越 深 表 示 正 得 越 大 。 

@ 类 似 边 上 的 颜色 ，TensorFlow 游乐 场 网 站 中 ， 点 上 的 颜色 也 有 黄色 【文中 浅 色 部 分 ) 和 蓝 色 文中 深 
色 部 分 )， 和 边 上 颜色 类 似 ， 黄 色 越 深 表 示 负 得 越 大 ， 蓝 色 越 深 表 示 正 得 越 大 。 

@ 在 TensorFlow 游乐 场 中 , 7 轴 左 侧 为 黄色 〈 文 中 浅 色 部 分 )， 右 侧 为 蓝 色 【文中 深 色 部 分 )。 
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输出 节点 。 这 个 节点 中 除了 显示 了 区 分 平面 之 外 ， 还 显示 了 训练 数据 ， 也 就 是 希望 通过 神 
经 网 络 区 分 的 数据 点 。 从 图 3-3 中 可 以 看 到 ， 经 过 两 层 的 隐藏 层 ， 输 出 节点 的 区 分 平面 已 
经 可 以 完全 区 分 不 同 颜色 的 数据 点 。 

综 上 所 述 ， 使 用 神经 网 络 解 决 分 类 问题 主要 可 以 分 为 以 下 4 个 步骤 。 

1. 提取 问题 中 实体 的 特征 向 量 作为 神经 网 络 的 输入 。 不 同 的 实体 可 以 提取 不 同 的 特征 向 
量 ， 本 书 中 将 不 具体 介绍 。 本 书 假设 作为 神经 网 络 输 入 的 特征 向 量 可 以 直接 从 数据 集中 获取 。 

2. 定义 神经 网 络 的 结构 ， 并 定义 如 何 从 神经 网 络 的 输入 得 到 输出 。 这 个 过 程 就 是 神经 
网 络 的 前 向 传播 算法 ， 在 3.4.2 小 节 中 将 详细 介绍 。 

3， 通过 训练 数据 来 调整 神经 网 络 中 参数 的 取 值 ， 这 就 是 训练 神经 网 络 的 过 程 。3.4.3 
小 节 将 先 介绍 TensorFlow 中 表示 神经 网 络 参 数 的 方法 ， 然 后 3.4.4 小 节 将 大 致 介绍 神经 网 
络 优化 算法 的 框架 ， 并 介绍 如 何 通过 TensorFlow 实现 这 个 框架 。 

4. 使 用 训练 好 的 神经 网 络 来 预测 未 知 的 数据 。 这 个 过 程 和 步骤 2 中 的 前 向 传播 算法 一 
致 ， 本 书 不 再 装 述 。 

下 面 的 几 个 小 节 将 具体 介绍 如 何 使 用 TensorFlow 来 实现 神经 网 络 中 的 不 同步 骤 。 最 后 
在 3.4.5 小 节 将 给 出 一 个 完成 的 程序 来 训练 神经 网 络 。 


3.4.2 ”前 向 传播 算法 简介 


在 3.4.1 小 节 中 简单 地 介绍 了 神经 网 络 可 以 将 输入 的 特征 向 量 经 过 层 层 推导 得 到 最 后 
的 输出 ， 并 通过 这 些 输出 解决 分 类 或 者 回归 问题 。 那 么 神经 网 络 的 输出 是 如 何 得 到 的 ? 在 
这 一 人 小节 中 将 详细 介绍 解决 这 个 问题 的 算法 一 一 前 向 传播 算法 。 不 同 的 神经 网 络 结构 前 向 传 
播 的 方式 也 不 一 样 ， 本 小 节 将 介绍 最 简单 的 全 连接 网 络 结构 的 前 问 传播 算法 ， 并 且 将 展示 如 何 
通过 TensorFlow 实现 这 个 算法 。 为 了 介绍 神经 网 络 的 前 向 传播 算法 ， 需 要 先 了 解 神经 元 的 结 
构 。 神 经 元 是 构成 一 个 神经 网 络 的 最 小 单元 ， 图 3-4 显示 了 一 个 最 简单 的 神经 元 结构 。 


X0OW0 


六 


XITWi 
X2W2 
图 3-4 神经 元 结构 示意 图 
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从 图 3-4 可 以 看 出 ， 一 个 神经 元 有 多 个 输入 和 一 个 输出 : 每 个 神经 元 的 输入 既 可 以 是 
其 他 神经 元 的 输出 ， 也 可 以 是 整个 神经 网 络 的 输入 。 所 谓 神 经 网 络 的 结构 就 是 指 的 不 同 神 
经 元 之 间 的 连接 结构 。 如 图 3-4 所 示 ， 一 个 最 简单 的 神经 元 结构 的 输出 就 是 所 有 输入 的 加 
权 和 2， 而 不 同 输入 的 权重 就 是 神经 元 的 参数 。 神 经 网 络 的 优化 过 程 就 是 优化 神经 元 中 参数 
取 值 的 过 程 ， 在 后 面 的 章节 中 将 具体 介绍 。 本 小 节 将 重点 介绍 神经 网 络 的 前 向 传播 过 程 。 
图 3-5 给 出 了 一 个 简单 的 判断 零件 是 否 合 格 的 三 层 全 连接 神经 网 络 。 之 所 以 称 之 为 全 连接 
神经 网 络 是 因为 相 邻 两 层 之 间 任 意 两 个 节点 之 间 都 有 连接 。 这 也 是 为 了 将 这 样 的 网 络 结构 
和 后 面 章节 中 将 要 介绍 的 卷 积 层 、LSTM 结构 区 分 。 图 3-5 中 除了 输入 层 之 外 的 所 有 节点 
都 代表 了 一 个 神经 元 的 结构 。 本 小 节 将 通过 这 个 样 例 来 解释 前 向 传播 的 整个 过 程 。 





| 得 入 层 陷落 层 答 出 主 


一 一 一 一 一 一 一 一 一 一 一 一- 一 一 一 — | 








稚 件 质 让 


”一 -一 一 一 


于 件 长 度 (= ) 
| 
| 


图 3-5 判断 零件 是 否 合格 的 三 层 神 经 网 络 结构 图 


计算 神经 网 络 的 前 向 传播 结果 需要 三 部 分 信息 。 第 一 个 部 分 是 神经 网 络 的 输入 ， 这 个 
输入 就 是 从 实体 中 提取 的 特征 向 量 。 比 如 在 图 3-5 中 有 两 个 输入 ， 一 个 是 零件 的 长 度 x， 
一 个 是 零件 的 质量 x9。 第 二 个 部 分 为 神经 网 络 的 连接 结构 。 神 经 网 络 是 由 神经 元 构成 的 ， 
神经 网 络 的 结构 给 出 不 同 神经 元 之 间 输 入 输出 的 连接 关系 。 神 经 网 络 中 的 神经 元 也 可 以 称 
之 为 节点 ,在 本 书 之 后 的 章节 中 将 统一 使 用 节点 来 指 代 神 经 网 络 中 的 神经 元 。 在 图 3-5 中 ， 
a 节点 有 两 个 输入 ， 他 们 分 别 是 x 和 x 的 输出 。 而 aii 的 输出 则 是 节 反 3 的 输入 。 最 后 一 


中 更 加 复杂 的 神经 元 结构 将 在 第 4 章 中 闪 绍 。 
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个 部 分 是 每 个 神经 元 中 的 参数 。 在 图 3-5 中 用 丈 来 表示 神经 元 中 的 参数 。 丈 的 上 标 表明 了 
神经 网 络 的 层 数 ， 比 如 了 0 表示 第 一 层 节点 的 参数 ， 而 2) 表示 第 二 层 节点 的 参数 。 球 的 
下 标 表明 了 连接 节点 编号 ， 比 如 砚 由 表示 连接 mm 和 ms 节点 的 边 上 的 权重 。 如 何 优化 每 一 
条 边 的 权重 将 在 下 面 的 章节 中 介绍 ， 这 一 节 假 设 这 些 权重 是 已 知 的 。 给 定神 经 网 络 的 输入 ， 
神经 网 络 的 结构 以 及 边 上 权重 ， 就 可 以 通过 前 向 传播 算法 来 计算 出 神经 网 络 的 输出 。 图 3-6 
展示 了 这 个 神经 网 络 前 向 传播 的 过 程 。 


Qi1 = Wx 十 WD x2 = 0.41 


Xi =0.7 


| 输入 层 绚 滤 层 输出 层 | 
| 
] 
| 
{ 






、 











零件 长 度 (2) (2) (2) 
y= Wi at Wz 0az + Ws qia 
qr = Wx + WS x = —0.38 本 
(2) _ 
pe i Wi = 0.1 0.116 > 0 二 侣 和 格 
四 WY = 一 05 
零件 质 萤 





图 3-6 神经 网 络 前 向 传播 算法 示意 图 


3-6 给 出 了 输入 层 的 取 值 x1=0.7 和 x2=0.9。 从 输入 层 开始 一 层 一 层 地 使 用 向 前 传播 算 
法 。 朋 先 隐藏 层 中 有 3 个 节点， 每 一 个 节点 的 取 值 都 是 输入 层 取 值 的 加 权 和 和。 下面 给 出 了 
U11 取 值 的 详细 计算 过 程 : 

a = Wx + WYx2 =0.7x0.2+0.9x0.3=0.14+0.27=0.41 

aa 和 ai3 也 可 以 通过 类 似 的 方法 计算 得 到 ， 图 3-6 中 也 给 出 了 具体 的 计算 公式 。 在 得 
到 第 一 层 证 点 的 取 值 之 后 ， 可 以 进一步 推导 得 到 输出 层 的 取 值 。 类 似 的， 输出 层 中 节操 的 
取 值 就 是 第 一 层 的 加 权 和 |: 

y=W a + Wa + Wi3 a3 = 0.41x0.6+(-0.38)x0.1+ 0.46x (-0.2) 
= 0.246+(-0.038) +(0.092) = 0.116 

因为 这 个 输出 值 大 于 阔 值 0， 所 以 在 这 个 样 例 中 最 后 给 出 的 答案 又 是 : 这 个 产品 是 合 
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格 的 。 这 就 是 整个 前 向 传播 的 算法 。 前 向 传播 算法 可 以 表示 为 矩阵 乘法 。 将 输入 xie 组织 
成 一 个 1x2 的 矩 阵 x=[xi,x3]， 而 歼 趾 组织 成 一 个 2x3 的 矩阵 ; 
a ee 
Wp Wi? Wa 
这 样 通 过 矩阵 乘法 可 以 得 到 隐藏 层 三 个 节点 所 组 成 的 向 量 取 值 ; 
Wt Wy Ws 
Way | 


I | | | I 1 
oy [Wi a + 有 Wm 2 xX2, WO 十 并 2 2 x3, I 9 + Wi xX2 | 


Qt =[aii;aizya3]=X 刺 人 = [Xi,X2] 





类 似 的 输出 层 可 以 表示 为 : 
Wi 
Dy]=a WY =[an,an,as]| WY |=[Wir oan + WZ a2 + Wa13] 
Wa 


这 样 就 将 前 回 传 播 算 法 通过 和 矩阵 乘法 的 方式 表达 出 来 了 。 在 TensorFlow 中 矩阵 乘法 是 
非常 容易 实现 的 。 以 下 TensorFlow 程序 实现 了 图 3-5 所 示 神 经 网 络 的 前 向 传播 过 程 。 

a = tf.matmul (x, Wl) 

y= tf.matmul (a, w2) 

其 中 让 matmul 实现 隋 阵 乘法 的 功能 。 到 此 为 止 已 经 详细 地 介绍 了 神经 网 络 的 前 向 传 
播 算 法 ， 并 且 给 出 了 TensorFlow 程序 来 实现 这 个 过 程 。 在 之 后 的 章节 中 会 继续 介绍 偏 置 
(bias)、 激 活 函 数 (activation function) 等 更 加 复杂 的 神经 元 结构 。 也 会 介绍 卷 积 神经 网 络 ， 
LSTM 结构 等 更 加 复杂 的 神经 网 络 结构 。 对 于 这 些 更 加 复杂 的 神经 网 络 ，TensorFlow 也 提 
供 了 很 好 的 支持 ， 后 面 的 章节 中 再 详细 介绍 。 


3.4.3 ”神经 网 络 参 数 与 TensorFlow 变量 


神经 网 络 中 的 参数 是 神经 网 络 实现 分 类 或 者 回归 问题 中 重要 的 部 分 。 本 小 节 将 更 加 有 具 
体 地 介绍 TensorFlow 是 如 何 组 织 、 保 存 以 及 使 用 神经 网 络 中 的 参数 的 。 在 TensorFlow 中 ， 
变量 〈 世 Variable) 的 作用 就 是 保存 和 更 新 神经 网 络 中 的 参数 。 和 其 他 编程 语言 类 似 ， 
TensorFlow 中 的 变量 也 需要 指定 初始 值 。 因 为 在 神经 网 络 中 ， 给 参数 赋予 随机 初始 值 最 为 
常见 ， 所 以 一 般 也 使 用 随机 数 给 TensorFlow 中 的 变量 初始 化 。 下 面 一 段 代 码 给 出 了 一 种 在 
TensorFlow 中 声明 一 个 2x3 的 矩阵 变量 的 方法 : 


weights = tf.Variable (tf.random normal ([2, 3]1, stddev=2)) 
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这 段 代 码 调用 了 TensorFlow 变量 的 声明 函数 tfVariable。 在 变量 声明 函数 中 给 出 了 初 
始 化 这 个 变量 的 方法 。TensorFlow 中 变量 的 初始 值 可 以 设置 成 随机 数 、 常 数 或 者 是 通过 其 
他 变量 的 初始 值 计 算得 到 。 在 上 面 的 样 例 中 ，trandom normal([2, 3], stddev=2) 会 产生 一 个 
2x3 的 矩阵 ,矩阵 中 的 元 素 是 均值 为 0， 标准 差 为 2 的 随机 数 。tf.random_normal 函数 可 以 
通过 参数 mean 来 指定 平均 值 ， 在 没有 指定 时 默认 为 0。 通 过 满足 正太 分 布 的 随机 数 来 初始 
化 神经 网 络 中 的 参数 是 一 个 非常 常用 的 方法 。 除 了 正太 分 布 的 随机 数 ，TensorFlow 还 提供 
了 一 些 其 他 的 随机 数 生 成 器 ， 表 3-2 列 出 了 TensorFlow 目前 支持 的 所 有 随机 数 生 成 器 。 


表 3-2 TensorFlow 随机 数 生成 函数 


Tr En 
TP 


tf.truncated_ normal 正太 分 布 ， 但 如 果 随 机 出 来 的 值 偏 两 平 询 便 超过 2 个 | 平均 值 、 标 惟 莽 、 取 值 类 型 
标准 差 ， 那 么 这 个 数 将 会 被 重新 户 机 


平均 分 布 ET 


tf.random_gamima Gamma 分 布 形状 参数 alpha， 尺 度 参 数 beta、 避 
值 类 型 


TensorFlow 也 支持 通过 常数 来 初始 化 一 个 变量 。 表 3-3 给 出 了 TensorFlow 中 常用 的 常 
量 声明 方法 。 














素 3-3 TensorFlow 常数 生成 函数 










tf.zeros([2, 3], int32) => [[0, 0, 0], [0, 0, 0]] 


产生 全 1 的 数组 tt.:ones([2, 3], int32) —> {[1, 1, 1], {1, 1, 1]] 
产生 一 个 全 部 为 给 定数 字 的 数组 tfGll([2, 31, 9) -> [[9, 9, 9]. [9, 9, 9]] 
产生 一 个 给 定 值 的 常量 tfconstant([1, 2, 3]) —> [1,2,3] 
在 神经 网 络 中 ， 偏 置 项 (bias) 通常 会 使 用 常数 来 设置 初始 值 。 以 下 代码 给 出 了 一 个 样 例 。 


biases = tf.Variable (tf.zeros([3])) 


这 段 代 码 将 会 生成 一 个 初始 值 全 部 为 0 且 长 度 为 3 的 变量 。 除了 使 用 随机 数 或 者 常数 ， 
TensorFlow 也 支持 通过 其 他 变量 的 初始 值 来 初始 化 新 的 变量 。 以 下 代码 给 出 了 具体 的 方法 。 

W2 = tf.Variable (weights.initialized value|()) 
w3 = tf,Variable(weights.initialized value() * 2.0) 

以 上 代码 中 ，w2 的 初始 值 被 设置 成 了 与 weights 变量 相同 。w3 的 初始 值 则 是 weights 
初始 值 的 两 倍 。 在 TensorFlow 中 ， 一 个 变量 的 值 在 被 使 用 之 前 ， 这 个 变量 的 初始 化 过 程 需 要 
被 明确 地 调用 。 以 下 样 例 介绍 了 如 何 通过 变量 实现 神经 网 络 的 参数 并 实现 前 向 传播 的 过 程 。 
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import tensorflow as tf 


# 声明 wl、w2 两 个 变量 。 这 里 还 通过 seed 参数 设 定 了 随机 种 子 ， 

# 这 样 可 以 保证 每 次 运行 得 到 的 结果 是 一 样 的 。 

wl = tf.Variable (tf.random normal([2, 3], stddev=1, seed=1)) 
w2 = tf.Variable (tf.random normal([3, 1], stddev=1, seed=1)) 


# 暂时 将 输入 的 特征 问 量 定义 为 一 个 常量 。 注 意 这 里 x 是 一 个 1*2 的 矩阵 。 
X= tf.constant([[0.7, 0.9]]) 


# 通过 3.4 .2 小节 描 述 的 前 向 传播 算法 获得 神经 网 络 的 输出 。 
a = 三 tf.matmul (x, wi) 
y = tf.matmul (a, w2) 


SESS = tEfE,.Session ll) 

# 与 3;4.2 中 的 计算 不 同 ， 这 里 不 能 直接 通过 sess .run(y) 来 获取 y 的 取 值 ， 

# 因为 wi 和 w2 都 还 没有 运行 初始 化 过 程 。 下 面 的 两 行 分 别 初始 化 了 wl 和 w2 两 个 变量 。 
sess.run(wl.initializer) # 初始 化 wl 

sess.run (w2.initializer) # 初始 化 w2 

# 输出 [[3.95757794]] 

print (sess.run (y)) 

Sess.close () 


上 面 这 段 程序 实现 了 神经 网 络 的 前 问 传 播 过 程 。 从 这 段 代 码 可 以 看 到 ， 当 声明 了 变量 
w1、w2 之 后 ， 可 以 通过 wl 和 w2 来 定义 神经 网 络 的 前 向 传播 过 程 并 得 到 中 间 结 果 a 和 最 
后 答案 y。 定 义 wl、w2、a 和 yy 的 过 程 对 应 了 3.1.2 小 节 中 介绍 的 TensorFlow 程序 的 第 一 
步 。 这 一 步 定 义 了 TensorFlow 计算 图 中 所 有 的 计算 但 这 些 被 定义 的 计算 在 这 一 步 中 并 不 
真正 的 运行 。 当 需要 运行 这 些 计算 并 得 到 具体 数字 时 , 需要 进入 TensorFlow 程序 的 第 二 步 。 

在 TensorFlow 程序 的 第 二 步 会 声明 一 个 会 话 (session)， 并 通过 会 话 计算 结果 。 在 上 面 
的 样 例 中 ， 当 会 话 定义 完成 之 后 就 可 以 开始 真正 运行 定义 好 的 计算 了 。 但 在 计算 y 之 前 ， 
需要 将 所 有 用 到 的 变量 初始 化 。 也 就 是 说 ， 虽 然 在 变量 定义 时 给 出 了 变量 初始 化 的 方法 ， 
但 这 个 方法 并 没有 被 真正 运行 。 所 以 在 计算 y 之 前 ， 需 要 通过 运行 wl.initializer 和 
Ww2.initializer 来 给 变量 赋值 。 虽然 直接 调用 每 个 变量 的 初始 化 过 程 是 一 个 可 行 的 方案 , 但 是 
当 变 量 数目 增多 ， 或 者 变量 之 间 存 在 依赖 关系 时 ， 单 个 调用 的 方案 就 比较 麻烦 了 。 为 了 解决 
这 个 问题 ，TensorFlow 提供 了 一 种 更 加 便捷 的 方式 来 完成 变量 初始 化 过 程 。 下 面 的 程序 展示 
了 通过 tfinitialize_all variables 函数 实现 初始 化 所 有 变量 的 过 程 。 


init op = tf.initialize all Variables() 
sess.run(init op) 
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通过 tfinitialize all_ variables 函数 ， 就 不 需要 将 变量 一 个 一 个 初始 化 了 。 这 个 函数 也 会 
自动 处 理 变量 之 间 的 依赖 关系 。 下 面 的 章节 都 将 使 用 这 个 函数 来 完成 变量 的 初始 化 过 程 。 

在 3.2 节 中 介绍 过 TensorFlow 的 核心 概念 是 张 量 〈tensor)， 所 有 的 数据 都 是 通过 张 量 
的 形式 来 组 织 的 ， 那 么 本 小 节 介 绍 的 变量 和 张 量 是 什么 关系 呢 ? 在 TensorFlow 中 ， 变 量 的 
声明 函数 tf.Variable 是 一 个 运算 。 这 个 运算 的 输出 结果 就 是 一 个 张 量 ， 这 个 张 量 也 就 是 本 
节 中 介绍 的 变量 。 所 以 变量 只 是 一 种 特殊 的 张 量 。 下 面 将 进一步 介绍 tf.Variable 操作 在 
TensorFlow 中 底层 是 如 何 实现 的 。 图 3-7 给 出 了 神经 网 络 前 向 传 播 样 例 程序 的 TensorFlow 
计算 图 的 一 个 部 分 ， 这 个 部 分 显示 了 和 变量 wl 相关 的 操作 。 


Rs ww) ~ 
1 - Qpera'ion' . .> 
W | Vanable 

i } dype Ftvpe DT_FLOAT') 
4 ee E Shale rshape {tdi alze 2)， 
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图 3-7 神经 网 络 前 向 传播 样 例 中 变量 wl 相关 部 分 的 计算 图 可 视 化 结果 ? 


在 图 3-7 上 黑色 的 椭圆 代表 了 变量 w1， 可 以 看 到 wl 是 一 个 Variable 运算 。 在 这 张 图 
的 下 方 可 以 看 到 wl 通过 一 个 read 操作 将 值 提 供给 了 一 个 乘法 运算 ， 这 个 乘法 操作 融 是 
tf.matmul(x, wl1)。 初 始 化 变量 wl 的 操作 是 通过 Assign 操作 完成 的 。 在 图 3-7 上 可 以 看 到 
Assign 这 个 节点 的 输入 为 随机 数 生成 函数 的 输出 , 而 且 输 出 赋 给 了 变量 wl1。 这样 就 完成 了 
变量 初始 化 的 过 程 。 

3.1.2 小 节 介 绍 了 TensorFlow 中 集合 (collection) 的 概念 ， 所 有 的 变量 都 会 被 自动 的 加 
入 GraphKeys.VARIABLES 这 个 集合 。 通 过 tall variables 函数 可 以 拿 到 当前 计算 图 上 所 有 
的 变量 。 拿 到 计算 图 上 所 有 的 变量 有 助 于 持久 化 整个 计算 图 的 运行 状态 ， 在 第 5 章 中 将 更 
加 详细 地 介绍 , 当 构 建 机 器 学 习 模 型 时 , 比如 神经 网 络 , 可 以 通过 变量 声明 函数 中 的 trainable 
参数 来 区 分 需要 优化 的 参数 (比如 神经 网 络 中 的 参数 ) 和 其 他 参数 〈 比 如 迭代 的 轮 数 )。 如 
果 声 明 变 量 时 参数 trainable 为 True， 那 么 et ich GraphKeys.TRAINABLE 
VARIABLES 集合 。 在 TensorFlow 中 可 以 通过 给 trainable_variables 函数 得 到 所 有 需要 优化 


Q@ 此 图 是 通过 TensorBoard 可 视 化 工具 绘制 的 ， 将 在 第 9 章 中 详细 介绍 TensorBoard。 
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的 参数 。TensorFlow 中 提供 的 神经 网 络 优化 算法 会 将 GraphKeys.TRAINABLE VARIABLES 
集合 中 的 变量 作为 默认 的 优化 对 象 。 

类 似 张 量 ， 维 度 (shape) 和 类 型 (type) 也 是 变量 最 重要 的 两 个 属性 。 和 大 部 分 程序 
语言 类 似 ， 变 量 的 类 型 是 不 可 改变 的 。 一 个 变量 在 构建 之 后 ， 它 的 类 型 就 不 能 再 改变 了 。 
比如 在 上 面 给 出 的 前 同 传 播 样 例 中 ,w1l 的 类 型 为 random _ normal 结果 的 默认 类 型 tf.float32， 
那么 它 将 不 能 被 赋予 其 他 类 型 的 值 。 以 下 代码 将 会 报 出 类 型 不 匹配 的 错误 。 


wl = tfi.Variable(tfi.random normal([2, 3], stddev=1), name="wl1") 

w2 = tf.Variapbple(tf.random normal ([2,; 3], dtype=tf,.float64, stddev=1), 
name="w2") 

wl .assign (w2) 

程序 将 报错 : 


TypeError: Input !Value' of 'Assign' Op has type floaté64 that does not match 
type float32 of argument 'ref'. 


Hu 


维度 是 变量 另 一 个 重要 的 属性 。 和 类 型 不 大 一 样 的 是 ， 维 度 在 程序 运行 中 是 有 可 能 改 
变 的 ， 但 是 需要 通过 设置 参数 validate_shape=False。 下 面 给 出 了 一 段 示范 代码 。 


wl = tf.Variable (tf.random normal ([2, 3], stddev=1), name="w1") 
w2 = tf.Variable (tf.random normal([2, 2], stddev=1), name="w2") 
# 下 面 这 名 会 报 维度 不 匹配 的 错误 ; 

# ValueError: Shapes (2，3) and (2, 2) are not compatible 
tf.assign (wl, w2) 

# 这 一 句 可 以 被 成 功 执行 。 


tf.assign(wl, w2, validate shape=False) 


虽然 TensorFlow 支持 更 改变 量 的 维度 ， 但 是 这 种 用 法 在 实践 中 比较 罕见 。 


3.4.4 通过 TensorFlow 训练 神经 网 络 模型 


3.4,3 小 节 介 绍 了 如 何 通过 TensorFlow 变量 来 表示 神经 网 络 中 的 参数 , 并 给 出 了 一 个 样 
例 程序 来 完成 神经 网 络 的 前 向 传播 过 程 。 在 这 个 样 例 程序 中 , 所 有 变量 的 取 值 都 是 随机 的 。 
在 使 用 神经 网 络 解决 实际 的 分 类 或 者 回归 问题 时 〈 比 如 判断 一 个 零件 是 否 合格 ) 需要 更 好 
地 设置 参数 取 值 。 这 一 小 节 将 简单 介绍 使 用 监督 学 习 的 方式 来 更 合理 地 设置 参数 取 值 ， 同 
时 也 将 给 出 TensorFlow 程序 来 完成 这 个 过 程 。 设 置 神经 网 络 参 数 的 过 程 就 是 神经 网 络 的 训 
练 过 程 。 只 有 经 过 有 效 训练 的 神经 网 络 模型 才 可 以 真正 的 解决 分 类 或 者 回归 问题 。 图 3-8 
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对 比 了 训练 之 前 和 训练 之 后 神经 网 络 模型 的 分 类 效果 。 从 图 中 可 以 看 出 ， 模 型 在 训练 之 前 
是 完全 无 法 区 分 黑色 点 和 灰色 点 的 ， 但 经 过 训练 之 后 区 分 效果 已 经 很 好 了 。 





图 3-8 TensorFlow 游乐 场 训 练 前 和 训练 后 效果 对 比 


使 用 监督 学 习 的 方式 设置 神经 网 络 参数 需要 有 一 个 标注 好 的 训练 数据 集 。 以 判断 零件 
是 否 合格 为 例 ， 这 个 标注 好 的 训练 数据 集 就 是 收集 的 一 批 合 格 零 件 和 一 批 不 合格 和 零件。 在 
图 3-8 中 ， 图 上 黑色 点 和 灰色 点 代表 的 就 是 训练 数据 集 ， 而 平面 上 或 深 或 浅 的 颜色 表示 了 
神经 网 络 模型 做 出 的 判断 。 如 3.4.1 小 节 所 介绍 的 ， 一 个 地 方 的 颜色 越 深 ， 那 么 表示 神经 网 
络 模型 对 它 的 判断 越 有 信心 "。 左 侧 的 图 片 显示 的 是 一 个 神经 网 络 在 训练 之 前 的 分 类 效果 ， 
这 时 所 有 变量 的 取 值 都 是 随机 数 。 可 以 看 到 这 个 平面 上 的 颜色 都 很 浅 ， 而 且 完全 区 分 不 出 
灰色 点 和 黑色 点 。 右 侧 图 片 显示 了 经 过 训练 后 的 神经 网 络 的 情况 。 可 以 看 到 图 上 黑色 点 和 
灰色 点 可 以 很 清晰 地 被 区 分 开 来 ， 而 且 除 了 中 间 有 一 圈 是 浅 色 的 ， 其 他 地 方 神 经 网 络 都 可 
以 给 出 非常 确定 的 答案 。 

监督 学 习 最 重要 的 思想 就 是 ， 在 已 知 答案 的 标注 数据 集 上 ， 模 型 给 出 的 预测 结果 要 尽 
量 接近 真实 的 答案 。 通 过 调整 神经 网 络 中 的 参数 对 训练 数据 进行 拟 合 ， 可 以 使 得 模型 对 未 
知 的 样本 提供 预测 的 能 力 。 图 3-8 中 右 侧 图 片 中 右上 角 的 深 色 点 就 很 有 可 能 和 灰色 点 有 相 
同 的 标签 。 如 果 灰 色 点 代表 不 合格 的 零件 ， 那 么 这 个 深 色 点 所 代表 的 零件 应 该 也 不 合格 。 

在 神经 网 络 优化 算法 中 ， 最 常用 的 方法 是 反 向 传播 算法 (backpropagation)。 反 辣 传 播 
算法 的 具体 工作 原理 将 在 下 面 的 4.3 小 节 中 详 述 。 本 小 节 将 主要 介绍 训练 神经 网 络 的 整体 
流程 以 及 TensorFlow 对 于 这 个 流程 的 支持 。 图 3-9 展示 了 使 用 反 回 传播 算法 训练 神经 网 络 
的 流程 图 。 


四 在 TensorFlow 游乐 场 有 两 种 颜色 ， 一 种 黄色 (文中 浅 色 部 分 )， 一 种 蓝 色 《文中 深 色 部 分 )。 任 意 一 种 
颜色 越 深 ， 都 代表 判断 的 信心 越 大 。 
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初始 化 变量 
训练 次 数 =0 


选取 一 部 分 训 
通过 前 癌 传 播 
获得 预测 值 
通过 反 癌 传播 
更 新 变量 


图 3-9 ”神经 网 络 反 向 传播 优化 流程 图 


从 图 3-9 中 可 以 看 出 ， 肥 癌 传 播 算法 实现 了 一 个 迭代 的 过 程 。 在 每 次 迭代 的 开始 ， 首 
先 需 要 选取 一 小 部 分 训练 数据 ， 这 一 小 部 分 数据 叫做 一 个 batch。 然 后 ， 这 个 batch 的 样 例 
会 通过 前 同 传 播 算法 得 到 神经 网 络 模型 的 预测 结果 。 因 为 训练 数据 都 是 有 正确 答案 标注 的 ， 
所 以 可 以 计算 出 当前 神经 网 络 模型 的 预测 答案 与 正确 答案 之 间 的 差距 。 最 后 ， 基 于 这 预测 
值 和 真实 值 之 间 的 差距 ， 反 向 传播 算法 会 相应 更 新 神经 网 络 参数 的 取 值 ， 使 得 在 这 个 batch 
上 神经 网 络 模型 的 预测 结果 和 真实 答案 更 加 接近 。 

通过 TensorFlow 实现 反问 传播 算法 的 第 一 步 是 使 用 TensorFlow 表达 一 个 batch 的 数据 。 
在 3.4.3 小 节 中 尝试 过 使 用 常量 来 表达 过 一 个 样 例 ; 


x = tf.constant({[[0.7, 0.9]]) 


但 如 果 每 轮 和 迭代 中 选取 的 数据 都 要 通过 常量 来 表示 ， 那 么 TensorFlow 的 计算 图 将 会 太 
大 。 因 为 每 生成 一 个 常量 ，TensorFlow 都 会 在 计算 图 中 增加 一 个 节点 。 一 般 来 说 ， 一 个 神 
经 网 络 的 训练 过 程 会 需要 经 过 几 百 万 轮 甚 至 几 亿 轮 的 友 代 ， 这 样 计算 图 就 会 非常 大 ， 而 且 
利用 率 很 低 。 为 了 避免 这 个 问题 ，TensorFlow 提供 了 placeholder 机 制 用 于 提供 输入 数据 。 
placeholder 相当 于 定义 了 一 个 位 置 ， 这 个 位 置 中 的 数据 在 程序 运行 时 再 指定 。 这 样 在 程序 
中 惑 不 需要 生成 大 量 和 常量 来 提供 输入 数据 ， 而 只 需要 将 数据 通过 placeholder 传 入 
TensorFlow 计算 图 。 在 placeholder 定义 时 ， 这 个 位 置 上 的 数据 类 型 是 需要 指定 的 。 和 其 他 
张 量 一 样 ，placeholder 的 类 型 也 是 不 可 以 改变 的 。placeholder 中 数据 的 维度 信息 可 以 根据 
提供 的 数据 推导 得 出 ， 所 以 不 一 定 要 给 出 。 下 面 给 出 了 通过 placeholder 实现 前 向 传播 算法 
的 代码 。 





训练 次 数 +1 





达到 训练 结束 训练 


次 数 ? TE E 
达到 训练 


目标 ? 






应 
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import tensorflow as tf 


wl = tf.Variable (tf.random normal([2, 3], stddev=1)) 
w2 = tf.Variable (tf.random normal([3, 1], stddev=1)) 


# 定义 placeholder 作为 存放 输入 数据 的 地 方 。 这 里 维度 也 不 一 定 要 定义 。 
# 但 如 果 维 度 是 确定 的 ， 那 么 给 出 维度 可 以 降低 出 错 的 概率 。 

x = tf.placeholder (tf.float32, shape=(1, 2), name="input") 
a = tf.matmul (x, wil) 

y = tf.matmul (a, w2) 


sess = tf.Session() 
init op = tf.initialize all variables'() 
sess.run(init op) 


# 下 面 一 行将 报错 : InvalidArgumentError: You must feed a value for placeholder 
# tensor 'input 1' with dtype float and shape [1,2] 
print (sess.run(y)) 


# 下 面 一 行将 会 得 到 和 3 .4 .2 小节 中 一 样 的 输出 结果 : [[3.95757794]] 
print(sess.run(y, feed dict={x: [[0.7,0.9]]})) 


在 这 段 程序 中 替换 了 原来 通过 常量 定义 的 输入 x。 在 新 的 程序 中 计算 前 向 传播 结果 时 ， 
需要 提供 一 个 feed dict 来 指定 x 的 取 值 。feed_dict 是 一 个 字典 (map)， 在 字典 中 需要 给 出 
每 个 用 到 的 placeholder 的 取 值 。 如 果 某 个 需要 的 placeholder 没有 被 指定 取 值 ， 那 么 程序 在 
运行 时 将 会 报错 。 

上 面 的 程序 只 计算 了 一 个 样 例 的 前 向 传播 结果 ， 但 如 图 3-9 所 示 ， 在 训练 神经 网 络 时 
需要 每 次 提供 一 个 batch 的 训练 样 例 。 对 于 这 样 的 需求 ，placeholder 也 可 以 很 好 地 支持 。 在 
上 面 的 样 例 程序 中 ， 如 果 将 输入 的 1x2 和 矩阵 改 为 nx2 的 矩阵， 那么 就 可 以 得 到 nn 个 样 例 的 
前 向 传播 结果 了 。 其 中 zx2 的 矩阵 的 每 一 行为 一 个 样 例 数据 。 这 样 前 向 传播 的 结果 为 axl 
的 矩阵 ， 这 个 矩阵 的 每 一 行 就 代表 了 一 个 样 例 的 前 向 传播 结果 。 下 面 的 程序 片 给 出 了 一 个 
示例 。 


x = tf.placeholder (tf.float32, shape=(3, 2), name="input") 
…. # 中 间 部 分 和 上 面 的 样 例 程 序 一 样 。 


# 因为 x 在 定义 时 指定 了 n 为 3， 所 以 在 运行 前 向 传播 过 程 时 需要 提供 3 个 样 例 数据 。 
print(sess.run(y, feed dict={x: [[0.7,0.9], [0.1,0.4], [0.5,0.8]]})) 
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输出 结果 为 ; 

[[ 3.95757794] 
[ 1.15376544] 
[ 3.16749191]] 


上 面 的 样 例 展示 了 一 次 性 计算 多 个 样 例 的 前 疝 传 播 结 果 。 在 运行 时 ， 需 要 将 3 个 样 例 
[0.7,0.9]、[0.1,0.4] 和 [0.5,0.8] 组 成 一 个 3x2 的 矩阵 传 入 placeholder。 计 算得 到 的 结果 为 3x1 
的 矩阵 。 其 中 第 一 行 3.95757794 为 样 例 [0.7,0.9] 的 前 向 传播 结果 ; 1.15376544 为 样 例 [0.1,0.4] 
的 前 向 传播 结果 ;3.16749191 为 样 例 [0.5,0.8] 的 前 问 传 播 结 果 。 

在 得 到 一 个 batch 的 前 向 传播 结果 之 后 ， 需 要 定义 一 个 损失 函数 来 刻画 当前 的 预测 值 
和 真实 答案 之 间 的 差距 。 然 后 通过 反 向 传播 算法 来 调整 神经 网 络 参 数 的 取 值 使 得 差距 可 以 
被 缩小 。 损 失 函 数 和 反 疝 传播 算法 将 在 第 4 章 中 更 加 详细 地 介绍 。 以 下 代码 定义 了 一 个 简 
单 的 损失 函数 ， 并 通过 TensorFlow 定义 了 反问 传播 的 算法 。 

# 定义 损失 函数 来 刻画 预测 值 与 真实 值得 差距 。 

cross entropy = -tf.reduce mean ( 

y_ * tf,.log(tf.clip by valuel(ly, le-10, 1.0))) 

# 定义 学 习 率 ， 在 第 4 章 中 将 更 加 具体 的 介绍 学 习 率 。 

learning rate = 0.001 

# 定义 反 向 传播 算法 来 优化 神经 网 络 中 的 参数 。 

train step = 

ee ee rh 

在 上 面 的 代码 中 , cross_entropy 定义 了 真实 值 和 预测 值 之 间 的 交叉 粒 ? (cross entropy)， 
这 是 分 类 问题 中 一 个 常用 的 损失 函数 。 第 二 行 train_step 定义 了 反 辣 传播 的 优化 方法 。 目 前 
TensorFlow 支持 7 种 不 同 的 优化 器 ， 读 者 可 以 根据 具体 的 应 用 选择 不 同 的 优化 算法 。 比 较 
常用 的 优化 方法 有 三 种 : tttrain.GradientDescentOptimizer 、tfttrain.AdamOptimizer 和 
tf.train,MomentumOptimizer。 在 定义 了 反 疝 传播 算法 之 后 ， 通 过 运行 sess.run(train_step) 束 
可 以 对 所 有 在 GraphKeys.TRAINABLE VARIABLES 集合 中 的 变量 ?进行 优化 , 使 得 在 当前 
batch 下 损失 函数 更 小 。 下 面 的 3.4.5 小 节 将 给 出 一 个 完整 的 训练 神经 网 络 样 例 程序 。 


3.4.5 ”完整 神经 网 络 样 例 程序 
本 小 节 将 在 一 个 模拟 数据 集 上 训练 神经 网 络 。 下 面 给 出 了 一 个 完整 的 程序 来 训练 神经 


Q 在 第 4 章 中 将 更 加 具体 的 介绍 交叉 暗 损失 函数 。 
@) TensorFlow 计算 图 中 集合 的 概念 在 3.1.2 小 节 有 介绍 。 
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网 络 解决 二 分 类 问题 。 
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import tensorflow as tf 


# NumPy 是 一 个 科学 计算 的 工具 包 ， 这 里 通过 NumPvy 工具 包 生 成 模拟 数据 集 。 


from numpy.random import RandomState 


# 定义 训练 数据 batch 的 大 小 。 


batch size = 8 


# 定义 神经 网 络 的 参数 ， 这 里 还 是 沿用 3 .4 .2 小 节 中 给 出 的 神经 网 络 结构 。 
wl = tf.Variable (tf.random normal([2, 3], stddev=1, seed=1)) 
w2 = tf.Variable (tf.random normal([3, 1], stddev=1, seed=]1)) 


# 在 shape 的 一 个 维度 上 使 用 None 可 以 方便 使 用 不 大 的 batch 大 小 。 在 训练 时 需要 把 数据 分 
# 成 比较 小 的 batch， 但 是 在 测试 时 ， 可 以 一 次 性 使 用 全 部 的 数据 。 当 数据 集 比 较 小 时 这 样 比较 
# 方便 测试 ， 但 数据 集 比较 大 时 ， 将 大 量 数 据 放 入 一 个 batch 可 能 会 导致 内 存 溢 出 。 

x = tf.placeholder (tf.float32, shape=(None, 2), name='x-input') 

y_ = tf.placeholder (tf.float32, shape=(None, 1), name='y-input') 


# 定义 神经 网 络 前 向 传播 的 过 程 。 
a = tf.matmul (x, wl1) 
Y = tf.matmul (a, w2) 


# 定义 损失 函数 和 反 向 传播 的 算法 。 
cross entropy = -tf.reduce mean 
yoitf. Log(ltf .Clip by valvely.ale=1D, L800).)) 
train step = tf.train.AdamOptimizer(0.001) .minimize (cross entropy) 


# 通过 随机 数 生成 一 个 模拟 数据 集 。 

rdm = RandomState (1) 

dataset size = 128 

X = rdm.rand(dataset size, 2) 

# 定义 规则 来 给 出 样本 的 标签 。 在 这 里 所 有 x1+x2<1 的 样 例 都 被 认为 是 正 样本 《比如 零件 合格 )， 
# 而 其 他 为 负 样 本 (比如 零件 不 合格 )。 和 TensorFlow 游乐 场 中 的 表示 法 不 大 一 样 的 地 方 是 ， 

# 在 这 里 使 用 0 来 表示 人 负 样 本 ，1 来 表示 正 样本 。 大 部 分 解决 分 类 问题 的 神经 网 络 都 会 采用 

# 0 和 1 的 表示 方法 。 

Tobant(trn I for Ml rn 


# 创建 一 个 会 话 来 运行 TensorFlow 程序 。 

with tf.Session() as sess: 

init op = tf.initialize all Variables() 
# 初始 化 变量 。 


sess.runl(linit op) 
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print Sess.run(wl) 
print Sess .zun (w2) 


rr 


在 训练 之 前 神经 网 络 参数 的 值 : 

wl = [[-0.81131822, 1.48459876, 0.06532937] 
[-2.44270396, 0.0992484, 0.59122431]] 

w2 = [[-0.81131822], [1.48459876], [0.06532937]] 


# 设 定 训 练 的 轮 数 。 

STEPS = 5000 

for 1 in range (STEPS): 
# 每 次 选取 batch size 个 样本 进行 训练 。 
start = (i * batch size) 本 dataset size 
end = min(Sstart+batch size, dataset size) 


# 通过 选取 的 样本 训练 神经 网 络 并 更 新 参数 。 
sess.runl(train step, 
feed dict={x: X[start:end], y : Yl[lstart:end]}) 

if i $ 1000 == 0: 

# 每 隔 一 段 时 间 计 算 在 所 有 数据 上 的 交叉 炉 并 输出 。 

total cross entropy = SeSss.zun 

cross entropy, feed dict={x: X, y : Y}) 
print ("After %d training step(s), cross entropy onall data is %$g" % 


(i, total cross entropy)) 
| 可 


输出 结果 : 

After 0 training step(s), cross entropy on all data is 0.0674925 
After 1000 training step(s), cross entropy on all data is 0.0163385 
After 2000 training step(s), cross entropy onall data is0.00907547 
After 3000 training step(s), cross entropy onall data is0.00714436 
After 4000 training step(s), cross entropy onall data is0.00578471 


通过 这 个 结果 可 以 发 现 随 着 训练 的 进行 ， 交 又 炉 是 逐渐 变 小 的 。 交 又 炉 越 小 说 明 
预测 的 结果 和 真实 的 结果 差距 越 小 。 


Print sess.run (wil) 
print sess.run (w2) 


在 训练 之 后 神经 网 络 参数 的 值 : 

wl = [[-1.9618274, 2.58235407, 1.68203783] 
[-3.4681716, 1.06982327, 2.11788988]] 

w2 = [[-1.8247149], [2.68546653], [1.41819501]] 
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可 以 发 现 这 两 个 参数 的 取 值 已 经 发 生 了 变化 ， 这 个 变化 就 是 训练 的 结果 。 
它 使 得 这 个 神经 网 络 能 更 好 的 拟 合 提 供 的 训练 数据 。 


上 面 的 程序 实现 了 训练 神经 网 络 的 全 部 过 程 。 从 这 段 程序 可 以 总 结 出 训练 神经 网 络 的 
过 程 可 以 分 为 以 下 3 个 步 又: 

1. 定义 神经 网 络 的 结构 和 前 向 传 播 的 输出 结果 。 

2. 定义 损失 函数 以 及 选择 反 冶 传播 优化 的 算法 ，。 

3， 生 成 会 话 (给 Session) 并 且 在 训练 数据 上 反复 运行 有 反 同 传播 优化 算法 。 
无 论 神经 网 络 的 结构 如 何 变化 ， 这 3 个 步骤 是 不 变 的 。 


/ 作 结 


本 章 首 先 介 绍 了 TensorFlow 里 最 基本 的 三 个 概念 一 一 计算 图 ( 妊 Graph)、 张 量 
(tfTensor) 和 会 话 (tf.Session)。 在 3.1 节 中 ， 介绍 本 TensorFlow 中 计算 图 的 概念 。 计 算 图 
是 TensorFlow 的 计算 模型 ， 所 有 TensorFlow 的 程序 都 会 通过 计算 图 的 形式 表示 。 计算 图 上 
的 每 一 个 节点 都 是 一 个 运算 ， 而 计算 图 上 的 边 则 表示 了 运算 之 间 的 数据 传递 关系 。 计 算 图 
上 还 保存 了 运行 每 个 运算 的 设备 信息 〈 比 如 是 通过 CPU 上 还 是 GPU 运行 ) 以 及 运算 之 间 
的 依 顿 关 系 。 计 算 图 提供 了 管理 不 同 集合 的 功能 ， 并 且 TensorFlow 会 目 动 维护 五 个 不 同 的 
默认 集合 。3.2 节 介 绍 了 张 量 的 概念 。 张 量 是 TensorFlow 的 数据 模型 ，TensorFlow 中 所 有 
运算 的 输入 、 输 出 都 是 张 量 。 张 量 本 身 并 不 存储 任何 数据 ， 它 只 是 对 运算 结果 的 引用 。 通 
过 张 量 ， 可 以 更 好 地 组 织 TensorFlow 程序 。 接 着 3.3 节 介 绍 了 TensorFlow 中 的 会 话 。 会 话 
是 TensorFlow 的 运算 模型 , 它 管理 了 一 个 TensorFlow 程序 拥有 的 系统 资源 ,所 有 的 运算 都 
要 通过 会 话 执 行 。 

本 章 的 最 后 一 节 介 绍 了 如 何 使 用 TensorFlow 来 实现 神经 网 络 的 训练 过 程 。 首 先 3.4.1 
小 节 结 合 TensorFlow 游乐 场 简单 介绍 了 神经 网 络 的 大 致 功能 ， 并 介绍 了 使 用 神经 网 络 的 几 
个 主要 步骤 。 然 后 在 接 下 来 的 3.4.2 到 3.4.4 小 节 中 ， 依 次 介绍 了 神经 网 络 的 前 向 传播 算法 ， 
神经 网 络 中 的 参数 在 TensorFlow 中 的 表示 以 及 神经 网 络 的 反 向 传播 优化 算法 框架 。 综 合 这 
3 个 小 节 的 内 容 , 最 后 3.4.5 小 节 给 出 了 一 个 完整 的 TensorFlow 程序 来 训练 神经 网 络 。 在 下 
面 的 第 4 章 中 ， 将 更 加 深入 地 介绍 设计 和 优化 神经 网 络 中 的 细节 。 
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第 3 章 介绍 了 TensorFlow 的 主要 概念 , 并 且 给 出 了 一 个 完整 的 TensorFlow 程序 来 训练 
神经 网 络 。 在 这 一 章 中 ， 将 进一步 介绍 如 何 设计 和 优化 神经 网 络 ， 使 得 它 能 够 更 好 地 对 未 
知 的 样本 进行 预测 。 首先 在 4.1 节 中 ， 将 介绍 深度 学 习 与 深层 神经 网 络 的 概念 ， 并 给 出 一 
个 实际 的 样 例 来 说 明 深层 神经 网 络 可 以 解决 部 分 浅 层 神经 网 络 解决 不 了 的 问题 .然后 在 4.2 
节 中 ， 将 介绍 如 何 设 定神 经 网 络 的 优化 目标 。 这 个 优化 目标 也 就 是 损失 函数 。 这 一 节 将 分 
别 介绍 分 类 问题 和 回归 问题 中 比较 常用 的 几 种 损失 函数 。 除 了 使 用 经 典 的 损失 函数 外 ， 在 
这 一 节 中 将 给 出 一 个 样 例 来 讲解 如 何 通 过 对 损失 函数 的 设置 ， 使 神经 网 络 优化 的 目标 更 加 
接近 实际 问题 的 需求 。 接 着 ，4.3 节 将 更 加 详细 地 介绍 神经 网 络 的 反问 传播 算法 ， 并 且 给 出 
一 个 TensorFlow 框架 来 实现 反 向 传播 的 过 程 。 在 对 神经 网 络 优化 有 了 进一步 了 解 之 后 ,最 后 
#444 节 将 介绍 在 神经 网 络 优化 中 经 常 遇 到 的 几 个 问题 ， 并 且 给 出 解决 这 些 问 题 的 具体 方法 。 


4.1 ”深度 学 习 与 深层 神经 网 络 


维基 百科 对 深度 学 习 的 精确 定义 为 “一 类 通过 多 层 非 线性 变换 对 高 复杂 性 数据 建 模 算 
法 的 合集 *”“。 因 为 深层 神经 网 络 是 实现 “多 层 非 线 性 变换 ”最 常用 的 一 种 方法 ， 所 以 在 实 
际 中 基本 上 可 以 认为 深度 学 习 就 是 深层 神经 网 络 的 代名词 。 从 维基 百科 给 出 的 定义 可 以 看 
出 ， 深 度 学 习 有 两 个 非常 重要 的 特性 一 一 多 层 和 非 线 性 。 屠 么 为 什么 要 强调 这 两 个 性 质 ? 
本 小 节 将 给 出 详细 的 解释 ， 并 且 将 通过 具体 的 样 例 来 说 明 这 两 点 在 对 复杂 问题 建 模 时 是 缺 
一 不 可 的 。4.1.1 小 节 将 先 介 绍 线性 变换 存在 的 问题 ， 以 及 为 什么 要 在 深度 学 习 的 定义 中 强 
调 “ 复 杂 问 题 ” 然后 在 4.1.2 小 节 中 ， 将 介绍 如 何 实现 去 线性 化 ， 并 给 出 TensorFlow 程序 
来 实现 去 线性 化 的 功能 。 最 后 4.1.3 小 节 将 介绍 一 个 具体 的 样 例 来 说 明 深 层 网 络 比 浅 层 网 络 


Q) 县 体 定义 可 以 参考 维基 百科 : https://en.wikipedia.org/wiki/Deep_learmning; 
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可 以 解决 更 多 的 问题 。 


4.1.1 ”线性 模型 的 局 限 性 


在 线性 模型 中 ， 模 型 的 输出 为 输入 的 加 权 和 。 假 设 一 个 模型 的 输出 y 和 输入 x; 满足 以 
下 天 系 ， 那 么 这 个 模型 就 是 一 个 线性 模型 。 
y= >》 Wi +b 


其 中 wi,b eR 为 模型 的 参数 。 被 称 之 为 线性 模型 是 因为 当 模 型 的 输入 只 有 一 个 的 时 候 ， 
xx 和 ?> 形成 了 二 维 坐 标 系 上 的 一 条 直线 。 类 似 的 ， 当 模型 有 个 输入 时 ，x 和 y 形成 了 n+l 
维 空 间 中 的 一 个 平面 。 而 一 个 线性 模型 中 通过 输入 得 到 输出 的 函数 被 称 之 为 一 个 线性 变换 。 
圭 面 的 公式 就 是 一 个 线性 变换 。 线 性 模型 的 最 大 特点 是 任意 线性 模型 的 组 合 仍 然 还 是 线性 
模型 。 细 心 的 读者 可 能 已 经 注意 到 了 ，3.4.2 小 节 中 所 介绍 的 前 向 传播 算法 实现 的 就 是 一 个 
线性 模型 。 在 3.4.2 小 节 中 ， 前 向 传播 的 计算 公式 为 : 
a0 =xWO, y=ad WY 
其 中 x 为 输入 ， 夯 为 参数 。 整 理 一 下 上 面 的 公式 可 以 得 到 整个 模型 的 输出 为 : 
= (xz 及 加 
根据 矩阵 乘法 的 结合 律 有 : 
y=x(WOWO)=xW' 
而 WW 其 实 可 以 被 表示 为 一 个 新 的 参数 W': 


W. 
(1) (1) (1) ll (DTrrr(2) (1) yy (2) (1) yr (2) i 
yr WWD _ 攻 Wy Ws yy Wi + HW Wy + Hs W311 | k 


We We We | [mm + mm + mm | LW 
这 样 输 入 和 输出 的 关系 就 可 以 表示 为 

a mi 

W2 

其 中 W' 是 新 的 参数 。 这 个 前 向 传播 的 算法 完全 符合 线性 模型 的 定义 。 从 这 个 例子 可 以 

看 到 ， 虽 然 这 个 神经 网 络 有 两 层 〈 不 算 输 入 层 )， 但 是 它 和 单 层 的 神经 网 络 并 没有 区 别 。 以 

此 类 推 ， 只 通过 线性 变换 ， 任 意 层 的 全 连接 神经 网 络 和 单 层 神 经 网 络 模型 的 表达 能 力 没有 

任何 区 别 ， 而 且 它 们 都 是 线性 模型 。 然 而 线性 模型 能 够 解决 的 问题 是 有 限 的 。 这 就 是 线性 

模型 最 大 的 局 限 性 ， 也 是 为 什么 深度 学 习 要 强调 非 线 性 。 在 下 面 的 篇 幅 中 ， 将 通过 

TensorFlow 游乐 场 给 出 一 个 具体 的 例子 来 验证 线性 模型 的 局 限 性 。 


=[Wixi + W2x2] 
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还 是 以 判断 零件 是 否 合 格 为 例 ， 输 入 为 x! 和 xp， 其 中 xi 代表 一 个 零件 质量 和 平均 质量 
的 差 ， 妆 代表 一 个 零件 长 度 和 平均 长 度 的 差 。 假 设 一 个 零件 的 质量 及 长 度 离 平均 质量 及 长 度 
越 近 ， 那 么 这 个 零件 越 有 可 能 合格 。 于 是 训练 数据 很 有 可 能 服从 图 4-1 所 示 的 分 布 。 






图 4-1 零件 合格 问题 数据 分 布 示意 图 


4-1 上 黑色 的 点 代表 合格 的 零件 ， 而 灰色 的 点 代表 不 合格 的 零件 。 可 以 看 到 虽然 黑 
色 和 灰色 的 点 有 一 些 重 合 ， 但 是 大 部 分 代表 合格 零件 的 黑色 点 都 在 原点 (0,0) 的 附近 ， 而 代 
表 不 合格 零件 的 灰 点 都 在 离 原 点 相对 远 的 地 方 。 这 样 的 分 布 比较 接近 真实 问题 ， 因 为 大 部 
分 真实 的 问题 都 存在 大 致 的 趋势 ， 但 是 很 难 甚 至 无 法 完全 正确 地 区 分 不 同 的 类 别 。 图 4-2 
显示 了 使 用 TensorFlow 游乐 场 训练 线性 模型 解决 这 个 问题 的 效果 。 


(eauotes Leamzsee 【AUDn Ne on tp Te RV ld 作 E 
» 
000,100 053 -Lnopr : Mong :40 Cessacasn 
DATA FEATURES 地 一 1】 HICDENLAYER OUTPUT 
When Cia 0 een pope ve 机 Tesl bat 0 457 
YN AS 区 joy WIN 人 < 有 ”3 TM inn ds2 
= ee 
“加 口 a 
sd 。 和 
“加 日 ee 
UNO cd em re 和 “> 
1S ” SAD 3 
2 人: 
9 和 a ba 
“a 。 
Map 23 \ 9 二 而 六 
人 are en pe{ 天 车 > r 
Www in 研 -| ep 时 
bw ml "Se 本 
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图 4-2 使 用 线性 模型 解决 线性 不 可 分 问题 的 效果 
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图 4-2 使 用 的 模型 有 一 个 隐藏 层 , 并 且 在 顶部 激活 函数 ”(Activation) 那 一 栏 中 选择 了 
线性 (Linear)， 这 和 3.4.1 小 节 中 介绍 的 神经 网 络 结构 是 基本 一 致 的 。 通 过 TensorFlow 游 
乐 场 对 这 个 模型 训练 100 轮 之 后 ， 在 最 右边 那 一 栏 可 以 看 到 训练 的 结果 。 从 图 4-2 上 可 以 
看 出 ， 这 个 模型 并 不 能 很 好 的 区 分 灰色 的 点 和 黑色 的 点 。 虽 然 整个 平面 的 颜色 都 比较 浅 ， 
但 是 中 间 还 是 隐约 有 一 条 分 界线 ， 这 说 明 这 个 模型 只 能 通过 直线 来 划分 平面 。 如 果 一 个 问 
题 可 以 通过 一 条 直线 来 划分 ， 那 么 线性 模型 也 是 可 以 用 来 解决 这 个 问题 的 。 图 4-3 显示 了 
一 个 可 以 通过 直线 划分 的 数据 。 
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图 4-3 ”使 用 线性 模型 解决 线性 可 分 问题 的 效果 


从 图 4-3 中 可 以 看 出 ， 在 线性 可 分 问题 中 ， 线 性 模型 就 能 很 好 区 分 不 同 颜色 的 点 。 因 
为 线性 模型 就 能 解决 线性 可 分 问题 ， 所 以 在 深度 学 习 的 定义 中 特意 强调 它 的 目的 为 解决 更 
加 复杂 的 问题 。 所 谓 复杂 问题 ， 至 少 是 无 法 通过 直线 〈 或 者 高 维 空间 的 平面 ) 划分 的 。 在 
现实 世界 中 ， 绝 大 部 分 的 问题 都 是 无 法 线性 分 割 的 。 回 到 判断 零件 是 否 合格 的 问题 ， 如 果 
将 激活 函数 换 成 非 线 性 的 , 那么 可 以 得 到 如 图 4-4 所 示 的 结果 。 在 这 个 样 例 中 使 用 了 ReLU 
激活 函数 。 使 用 其 他 非 线 性 激活 函数 也 可 以 得 到 类 似 的 效果 。 从 图 4-4 中 可 以 看 出 ， 当 加 
入 非 线 性 的 元 素 之 后 ， 神 经 网 络 模型 就 可 以 很 好 地 区 分 不 同 颜 色 的 点 了 J 了。 


加 4.1.2 小 节 将 详细 介绍 激活 函数 ， 
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图 4-4 使 用 非 线 性 模型 解决 线性 不 可 分 问题 的 效果 


4.1.2 ”激活 函数 实现 去 线性 化 


4.1.1 小 市 已 经 提 到 过 激活 函数 ， 并 在 样 例 中 看 到 了 它 “ 神 奇 ” 的 作用 。 在 这 一 个 小 节 
中 , 将 详细 介绍 激活 函数 是 如 何 工 作 的 。 在 3.4.2 小 节 中 介绍 的 神经 元 结构 的 输出 为 所 有 输 
入 的 加 权 和 ， 这 导致 整个 神经 网 络 是 一 个 线性 模型 。 如 果 将 每 一 个 神经 元 (也 就 是 神经 网 
络 中 的 节操 ) 的 输出 通过 一 个 非 线 性 函数 ,那么 整个 神经 网 络 的 模型 也 就 不 再 是 线性 的 了 。 
这 个 非 线性 函数 就 是 激活 函数 。 图 4-5 显示 了 加 入 激活 函数 和 偏 置 项 之 后 的 神经 元 结构 。 


xiWi 二 站 1 0 XWi+ b) 
' i 


b 
入 / 
Wa :一 一 -一 一 
X2W2 
图 4-5 “加 入 偏 置 项 和 激活 函数 的 神经 元 结构 示意 图 


69 


ww ai bbt.com DODODDDDD 





TensorFlow: 实战 Google 深度 学 习 框 架 


出 了 3.4.2 小 节 中 神经 网 络 结构 加 上 激活 函数 和 偏 置 项 后 的 前 向 传播 算 


OD ww) Ww 
上 mh Ws 


4 =[alyaaya3s]= f(xW™ +b)= f(xi,x2] +[b 2 Bb)) 
WY > 
WY 2 这 


= f (WD + WAY x2 + bi, WO + Wi2x2 + b2, Wi x1 + WI3x2 + b3]) 
=[f (Wi + Wa?x2 十 为) f (WD + Wdx2 + b2), f (Wi3 x + W23x2 + bs)] 
相 比 3.4.2 小 节 中 的 定义 ,上面 的 定义 主要 有 两 个 改变 。 第 一 个 改变 是 新 的 公式 中 增加 
了 偏 置 项 〈bias)， 偏 置 项 是 神经 网 络 中 非常 常用 的 一 种 结构 。 第 二 个 改变 就 是 每 个 斑点 的 
取 值 不 再 是 单纯 的 加 权 和 。 每 个 节点 的 输出 在 加 权 和 的 基础 上 还 做 了 一 个 非 线性 变换 。 图 
4-6 显示 了 几 种 常用 的 非 线性 激活 函数 的 函数 图 像 





Rez1 函 数 ; sigmoid 函 数 ; 
f(x) = max(x, 0) f(x) = f(x) = 


e@—2x 


1 
1+e-* 


图 4-6 常用 的 神经 网 络 激活 函数 的 函数 图 像 


从 图 4-6 中 可 以 看 出 ， 这 些 激活 函数 的 函数 图 像 都 不 是 一 条 直线 。 所 以 通过 这 些 激活 
函数 ， 每 一 个 节点 不 再 是 线性 变换 ， 于 是 整个 神经 网 络 模型 也 就 不 再 是 线性 的 了 。 图 4-7 
给 出 了 加 入 偏 置 项 和 ReLU 激活 函数 之 后 ， ee 直 构 。 

从 图 4-7 中 可 以 看 出 ， 偏 置 项 可 以 被 表达 为 一 个 输出 永远 为 1 的 节点 。 下 面 的 公式 给 
Pate cet he Marneetteepie 

隐藏 层 推导 公式 : 


an=f (Wm +Wr x 十 让 )=f(0.7x0.2+0.9x0.3+(-0.5))= f(-0.09) = 0.09 
aa =f (Wx +WOx2 +b))=f(0.7x0.1+0.9+(-0.5)x0.1)= f(-0.28) = 0.28 
a3=f(W3m+WiIxs 十 及 )) = f(0.7x0.4+0.9x0.2+(-0.1))= f(0.36) = 0.36 


N 
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输出 层 推导 公式 : 
Y=f (Wan + WO az + Wa + )=/(0.09x0.6+0.28x0.1+0.36x(-0.2)+0.1) 


3 


= f(0.054+0.028+(-0.072)+0.1)= f(0.11)=0.11 
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图 4-7 加 入 偏 置 项 和 激活 函数 的 神经 网 络 结构 图 


目前 TensorFlow 提供 了 7 种 不 同 的 非 线性 激活 函数 ，tf.nn.relu、tf.sigmoid 和 tf.tanh 是 
其 中 比较 常用 的 几 个 。 当 然 ，TensorFlow 也 文 持 使 用 目 己 定义 的 激活 函数 。 以 下 代码 展示 
了 如 何 通过 TensorFlow 实现 图 4-7 中 神经 网 络 的 前 向 传播 算法 。 


a = tf.nn.relu(tf.matmul (x, wl1) + bliasesl) 
y = tf.nn.relu(tf.matmul (a, w2) + biases2) 


从 上 面 的 代码 可 以 看 出 ，TensorFlow 可 以 很 好 地 文 持 便 用 了 激活 函数 和 偶 置 项 的 神经 
网 络 。 
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4.1.3 ”多 层 网 络 解决 异 或 运算 


上 面 的 两 个 小 节 详 细 讲 解 了 线性 变换 的 问题 。 在 这 一 小 节 中 ， 将 通过 一 个 实际 问题 来 
讲解 深度 学 习 的 另外 一 个 重要 性 质 一 一 多 层 变 换 。 在 神经 网 络 的 发 展 史 上 ， 一 个 很 重要 的 
问题 就 是 异 或 问题 。 神 经 网 络 的 理论 模型 由 Warren McCulloch 和 Walter Pitts 在 1943 年 首 
次 提出 ， 并 在 1958 年 由 Frank Rosenblatt 提出 了 感知 机 〈perceptron) 模型 ， 从 数学 上 完成 
了 对 神经 网 络 的 精确 建 模 。 感 知 机 可 以 简单 地 理解 为 单 层 的 神经 网 络 ， 图 4-5 中 给 出 的 神 
经 元 结构 就 是 感知 机 的 网 络 结构 。 

感知 机 会 先 将 输入 进行 加 权 和 ， 然 后 再 通过 4.1.2 小 节 中 介绍 的 激活 图 数 最 后 得 到 输 
出 。 这 个 结构 丈 是 一 个 没有 隐 茂 层 的 神经 网 络 。 在 上 个 世纪 60 年代， 神经 网 络 作为 对 人 类 
大 脑 的 模拟 算法 受到 了 很 多 关注 。 然 而 到 了 1969 年 ，Marvin Minsky 和 Seymour Papert 在 
Perceptrons: An Introduction to Computational Geometry 一 书 中 提出 感知 机 是 无 法 模拟 寞 或 
运算 的 ?。 这 里 略 去 复杂 的 数学 求证 过 程 ， 而 是 通过 TensorFlow 游乐 场 来 模拟 一 下 通过 感 
知 机 的 网 络 结构 来 模拟 异 或 运算 。 图 4-8 显示 了 通过 TensorFlow 游乐 场 训练 500 轮 之 后 的 
情况 。 
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图 4-8 ”使 用 单 层 神 经 网 络 解决 异 或 问题 的 效果 图 


图 4-8 使 用 了 一 个 能 够 模拟 异 或 运算 的 数据 集 。 异 或 运算 直观 来 说 就 是 如 有 果 两 个 策 入 
的 符号 相同 时 《同时 为 正 或 者 同时 为 负 ) 则 输出 为 0， 否则 《一 个 正 一 个 负 ) 输出 为 1。 从 


Q 参见 : Minsky, M.; S. Papert. Perceptrons: An Introduction to Computational Geometry [J]. MIT Press,1969, 
ISBN 0-262-63022-2. 


Ya 
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图 4-8 中 可 以 看 出 ， 左 下 角 【《〈 两 个 输入 同时 为 负 ) 和 右上 角 【〔 两 个 输入 同时 为 正 〉 的 点 为 
黑色 ， 而 另外 两 个 象限 的 点 为 灰色 ， 这 就 符合 异 或 运算 的 计算 规则 。 图 4-8 中 将 隐藏 层 的 
层 数 设置 为 0， 这 样 就 模拟 了 感知 机 的 模型 。 通 过 500 轮训 练 之 后 ， 可 以 看 到 这 个 感知 机 
模型 并 不 能 将 两 种 不 同 颜色 的 点 分 开 ， 也 就 是 说 感知 机 无 法 模拟 异 或 运算 的 功能 。 

当 加 入 隐藏 层 之 后 ， 异 或 问题 就 可 以 得 到 很 好 地 解决 。 图 4-9 显示 了 一 个 有 4 个 节 氮 
的 隐藏 层 的 神经 网 络 在 训练 500 轮 之 后 的 效果 。 在 图 4-9 中 ， 除 了 可 以 看 到 最 右边 的 输出 
节点 可 以 很 好 地 区 分 不 同 颜色 的 点 外 ， 更 加 有 意思 的 是 ， 隐 藏 层 的 四 个 节点 中 ， 每 个 节点 
都 有 一 个 和 角 是 黑色 的 。 这 四 个 隐藏 节点 可 以 被 认为 代表 了 从 得 入 特征 中 抽取 的 更 高 维 的 特 
征 。 比 如 第 一 个 节点 可 以 大 致 代 表 两 个 输入 的 远 辑 与 操作 的 结果 《〈 当 两 个 输入 都 为 正 数 时 
该 节点 输出 为 正 数 )。 从 这 个 例子 中 可 以 看 到 , 深层 神经 网 络 实际 上 有 组 合 特征 提取 的 功能 。 
这 个 特性 对 于 解决 不 易 提 取 特 征 向 量 的 问题 《比如 图 片 识 别 、 语音 识别 等 ) 有 很 大 帮助 。 
这 也 是 深度 学 习 在 这 些 问题 上 更 加 容易 取得 突破 性 进展 的 原因 。 
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4-9 ”使 用 深层 神经 网 络 解决 异 或 问题 


4.2 ”损失 函数 定义 


4.1 节 介 绍 了 深度 学 习 的 一 些 性 质 , 并 且 通 过 这 些 性 质 讲解 了 如 何 构 造 一 个 更 加 有 效 的 
神经 网 络 。 本 节 将 具体 介绍 如 何 刻 画 不 同 神 经 网 络 模型 的 效果 。 神 经 网 络 模 型 的 效果 以 及 
优化 的 目标 是 通过 损失 函数 (loss function) 来 定义 的 。 在 4.2.1 小 节 中 ， 将 讲解 适用 于 分 类 问 
题 和 回归 问题 的 经 典 损失 函数 ， 并 通过 TensorFlow 实现 这 些 损失 函数 。 然 后 在 4.2.2 小 节 
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中 ， 将 介绍 如 何 根据 具体 问题 定义 损失 函数 ， 并 通过 具体 样 例 来 说 明 不 同 损失 函数 对 训练 
结果 的 影响 。 


4.2.1 经 典 损失 函数 


分 类 问题 和 回归 问题 是 监督 学 习 的 两 大 种 类 。 这 一 小 节 将 分 别 介绍 分 类 问题 和 回归 问 
题 中 使 用 到 的 经 典 损 失 函 数 。 分 类 问题 希望 解决 的 是 将 不 同 的 样本 分 到 事先 定义 好 的 类 别 
中 。 比 如 在 第 3 章 中 介绍 的 判断 一 个 零件 是 否 合格 的 问题 就 是 一 个 二 分 类 问题 。 在 这 个 问 
题 中 ， 需 要 将 样本 《〈 也 就 是 零件 ) 分 到 合格 或 是 不 合格 两 个 类 别 中 。 在 4.3 节 中 将 要 介绍 
的 手写 体 数 字 识 别 问 题 可 以 被 归纳 成 一 个 十 分 类 问题 。 手 写 体 数字 识别 问题 可 以 被 看 成 将 
一 张 包含 了 数字 的 图 片 分 类 到 0~9 这 10 个 数字 中 。 

在 解决 判断 零件 是 否 合格 的 二 分 类 问题 时 ， 在 第 3 章 中 定义 过 一 个 有 单个 输出 节点 的 
俐 经 网 络 。 当 这 个 节点 的 输出 越 接近 0 时 ， 这 个 样本 越 有 可 能 是 不 合格 的 ， 反 之 如 果 输 出 
越 接 近 1, 则 这 个 样本 越 有 可 能 是 合格 的 。 为 了 给 出 具体 的 分 类 结果 , 可 以 取 0.5 作为 阀 值 。 
凡是 输出 大 于 0.5 的 样本 都 认为 是 合格 的 ,小 于 0.5 的 则 是 不 合格 的 。 然 而 这 样 的 做 法 并 不 
容易 直接 推广 到 多 分 类 的 问题 。 虽 然 设置 多 个 冰 值 在 理论 上 是 可 能 的 ， 但 在 解决 实际 问题 
的 过 程 中 一 般 不 会 这 么 处 理 。 

通过 神经 网 络 解决 多 分 类 问题 最 常用 的 方法 是 设置 n 个 输出 节点 ， 其 中 为 类 别 的 个 
数 。 对 于 每 一 个 样 例 ， 神 经 网 络 可 以 得 到 的 一 个 n 维 数组 作为 输出 结果 。 数 组 中 的 每 一 个 
维度 (也 就 是 每 一 个 输出 节点 ) 对 应 一 个 类 别 。 在 理想 情况 下 ， 如 果 一 个 样本 属于 类 别 k， 
那么 这 个 类 别 所 对 应 的 输出 节点 的 输出 值 应 该 为 1， 而 其 他 节点 的 输出 都 为 0。 以 识别 数字 
1 为 例 ， 神 经 网 络 模型 的 输出 结果 越 接 近 [0,1,0,0,0,0,0,0,0,0] 越 好 。 那 么 如 何 判 断 一 个 输出 
向 量 和 期 望 的 向 量 有 多 接近 呢 ?” 交 了 叉 焙 (cross entropy) 是 常用 的 评判 方法 之 一 。 交 又 粹 刻 
画 了 两 个 概率 分 布 之 间 的 距离 ， 它 是 分 类 问题 中 使 用 比较 广 的 一 种 损失 函数 。 

交叉 烂 是 一 个 信息 论 中 的 概念 ， 它 原本 是 用 来 估算 平均 编码 长 度 的 。 在 本 书 中 不 过 多 
讨论 它 原 本 的 意义 , 而 会 通过 它 的 公式 以 及 具体 的 样 例 来 讲解 它 对 于 评估 分 类 效果 的 意义 。 
给 定 两 个 概率 分 布 和 gqg， 通 过 gq 来 表示 p 的 交叉 焙 为 : 

H(p,q9)=—2_ p(x)log q(x) 

注意 交叉 燃 刻 画 的 是 两 个 概率 分 布 之 间 的 距离 ， 然 而 神经 网 络 的 输出 却 不 一 定 是 一 个 
概率 分 布 。 概 率 分 布 刻 画 了 不 同事 件 发 生 的 概率 。 当 事件 总 数 是 有 限 的 情况 下 ， 概 率 分 布 
函数 p(X = xz) 满足 : 

WO] 且 > p(X=2)=1 
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也 就 是 说 ， 任 意 事件 发 生 的 概率 都 在 0 和 1 之 间 ， 且 总 有 某 一 个 事件 发 生 ( 概 率 的 和 
为 1)。 如 果 将 分 类 问题 中 “一 个 样 例 属 于 某 一 个 类 别 ” 看 成 一 个 概率 事件 ， 那 么 训练 数据 
的 正确 答案 就 符合 一 个 概率 分 布 。 因 为 事件 “一 个 样 例 属于 不 正确 的 类 别 ” 的 概率 为 0， 
而 “一 个 样 例 属于 正确 的 类 别 ” 的 概率 为 1。 如 何 将 神经 网 络 前 向 传播 得 到 的 结果 也 变 成 
概率 分 布 呢 ? Softmax 回归 就 是 一 个 非常 常用 的 方法 。 

Softmax 回归 本 身 可 以 作为 一 个 学 习 算 法 来 优化 分 类 结果 ,但 在 TensorFlow 中 , Softmax 
回归 的 参数 被 去 掉 了 ， 它 只 是 一 层 额 外 的 处 理 层 ， 将 神经 网 络 的 输出 变 成 一 个 概率 分 布 。 
图 4-10 展示 了 加 上 了 Softmax 回归 的 神经 网 络 结构 图 ， 


陷 配 层 原始 得 出 席 ftmax 层 最 疼 笨 山 层 
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图 4-10 通过 Softmax 层 将 神经 网 络 输 出 变 成 一 个 概率 分 布 
假设 原始 的 神经 网 络 输出 为 y, yz, … WW， 那么 经 过 Softmax 回归 处 理 之 后 的 输出 为 : 


yi 


e 
yma 

从 以 上 公式 中 可 以 看 出 ， 原 始 神 经 网 络 的 输出 被 用 作 置 信和 度 来 生成 新 的 输出 ， 而 新 的 
输出 满足 概率 分 布 的 所 有 要 求 。 这 个 新 的 输出 可 以 理解 为 经 过 神经 网 络 的 推导 ， 一 个 样 例 
为 不 同类 别 的 概率 分 别 是 多 大 。 这 样 就 把 神经 网 络 的 输出 也 变 成 了 一 个 概率 分 布 ， 从 而 可 
以 通过 交叉 炳 来 计算 预测 的 概率 分 布 和 真实 答案 的 概率 分 布 之 间 的 距离 了 。 

从 区 叉 燃 的 公式 中 可 以 看 到 交叉 烂 函数 不 是 对 称 的 《如 (p,q) 才 有 H(q,p) )， 它 刻画 的 是 
通过 概率 分 布 g 来 表达 概率 分 布 p 的 困难 程度 。 因 为 正确 答案 是 希望 得 到 的 结果 ， 所 以 当 
交叉 蚁 作为 神经 网 络 的 损失 函数 时 , p 代表 的 是 正确 答案 ,g 代表 的 是 预测 值 。 交 叉 精 刻画 
的 是 两 个 概率 分 布 的 距离 ， 也 就 是 说 交 广 炉 值 越 小 ， 两 个 概率 分 布 越 接近 。 下 面 将 给 出 两 
个 具体 样 例 来 直观 地 说 明 通 过 交 又 烂 可 以 判断 预测 答案 和 真实 答案 之 间 的 距离 。 假 设 有 一 
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个 三 分 类 问题 ， 某 个 样 例 的 正确 答案 是 〈1,0,0)。 某 模型 经 过 Softmax 回归 之 后 的 预测 答案 
是 《0.5;0.4,0.1)， 那 么 这 个 预测 和 正确 答案 之 间 的 交叉 灶 为 : 
H((1,0,0),(0.5,0.4,0.1))=-(1xlog0.5+0xlog0.4+0xiog0.1) = 0.3 
如 果 另 外 一 个 模型 的 预测 是 (0.8,0.1,0.D)， 那 么 这 个 预测 值 和 真实 值 之 间 的 交叉 焙 是 : 
H((1,0,0),(0.8,0.1,0.1))=-(lxlog0.8+0xlog0.1+0xl0g0.1) <0.1 
从 直观 上 可 以 很 容易 地 知道 第 二 个 预测 答案 要 优 于 第 一 个 。 通 过 交叉 蚁 计算 得 到 的 结 
果 也 是 一 致 的 (第 二 个 交叉 灼 值 更 小 )。 在 3.4.5 小 节 中 ， 已 经 通过 TensorFlow 实现 过 交 
叉 烂 ， 其 代码 实现 如 下 : 
cross entropy = -tf.reduce _ mean ( 
yw tf log(tti .clip Dy value(ly le=10;. L607 
其 中 y_ 代表 正 确 结果 ，y 代表 预测 结果 。 本 小 节 将 更 加 具体 的 讲解 这 个 计算 过 程 。 这 
一 行 代码 包含 了 四 个 不 同 的 TensorFlow 运算 。 通 过 tf.clip by value 函数 可 以 将 一 个 张 量 中 
的 数值 限制 在 一 个 范围 之 内 ， 这 样 可 以 避免 一 些 运算 错误 (比如 log0 是 无 效 的 )。 下 面 给 
出 了 使 用 给 clip_by_value 的 简单 样 例 。 


Vv = tft .constant (llltld rr 2.07 3.0N L405.05 06.0 
print tf.clip by value(v, 2.5, 4.5) .eval() 
#52 3 a MST 5]] 


在 上 面 的 样 例 中 可 以 看 到 ， 小 于 2.5 的 数 都 被 换 成 了 2.5， 而 大 于 4.5 的 数 都 被 换 成 了 
4.5。 这 样 通过 ttclip by _value 函数 就 可 以 保证 在 进行 log 运算 时 ， 不 会 出 现 1og0 这 样 的 错 
误 或 者 大 于 1 的 概率 。 第 二 个 运算 是 毕 log 函数 , 这 个 函数 完成 了 对 张 量 中 所 有 元 素 依次 求 
对 数 的 功能 。 以 下 代码 中 给 出 一 个 简单 的 样 例 。 


TEL eongtant oi 0 0 sd 
print tf.log(v) .eval() 
# 输出 [ 0. 0.69314718 1.09861231] 


第 三 个 运算 是 乘法 ， 在 实现 交 义 炉 的 代码 中 直接 将 两 个 矩阵 通过 “*” 操 作 相 乘 。 这 个 
操作 不 是 矩阵 乘法 ， 而 是 元 素 之 间 直 接 相 乘 。 珑 阵 乘法 需要 使 用 tfmatmul 函数 来 完成 。 下 
面 给 出 了 这 两 个 操作 的 区 别 : 


vi = tf.constant ([[1.0,; 2.0]; [3.0, .4.0]]) 
v2 = tf.constant ([[5.0, 6.0], [7.0, 8.0]]) 


print (vl * v2) .eval () 


4 二 D5 0 


print tf,matmul (vi, v2) .eval() 
# 输出 [[ 19. 22.] [ 43. 50.]] 
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Vv1l*V2 的 结果 是 每 个 位 置 上 对 应 元 素 的 乘积 。 比 如 〈1,1) 这 个 元 素 的 值 是 : 
vl vALI=1x5=5 
(1,2) 这 个 元 素 的 值 是 : 
VIL.2] x v1.2] =2x6=12 
以 此 类 推 。 而 给 matmul 函数 完成 的 是 矩阵 乘法 运算 ， 所 以 《1,1) 这 个 元 素 的 值 是 ; 
VITLI]x vr,1] + Vil, 2]x v2[2,1] =1x5+2x7=19 

通过 上 面 这 三 个 运算 完成 了 对 于 每 一 个 样 例 中 的 每 一 个 类 别 交 叉 烂 p(x) log g(x) 的 计 
算 。 这 三 步 计 算得 到 的 结果 是 一 个 nxm 的 二 维 矩 阵 ， 其 中 mm 为 一 个 batch 中 样 例 的 数量 ， 
m 为 分 类 的 类 别 数量 。 根据 交叉 焙 的 公式 ， 应 令 将 每 行 中 的 m 个 结果 相 加 得 到 所 有 样 例 的 
交叉 焙 ， 然 后 再 对 这 n 行 取 平 均 得 到 一 个 batch 的 平均 交叉 烂 。 但 因为 分 类 问题 的 类 别 数 
量 是 不 变 的 ， 所 以 可 以 直接 对 整个 矩阵 做 平均 而 并 不 改变 计算 结果 的 意义 。 这 样 的 方式 可 
以 使 整个 程序 更 加 简洁 。 以 下 代码 简单 展示 了 证 reduce_mean 函数 的 使 用 方法 。 

V = tf.constant([[l1.0, 2.0: 3.0]; [4.0,;5.0;6.01]) 

print tf,reduce mean (v) .eVal1() # 输出 3.5 

因为 交叉 焙 一 般 会 与 softmax 回归 一 起 使 用 ， 所 以 TensorFlow 对 这 两 个 功能 进行 了 统 
一 封装 ， 并 提供 了 给 nn.softmax cross_ entropy_with logits 函数 。 比 如 可 以 直接 通过 下 面 的 
代码 来 实现 使 用 了 softmax 回归 之 后 的 交叉 炳 损失 水 数 : 


cross entropy = tf.nn.softmax cross entropy with logits(y, y ) 


其 中 y 代表 了 原始 神经 网 络 的 输出 结果 ， 而 y 给 出 了 标准 答案 。 这 样 通过 一 个 命令 就 
可 以 得 到 使 用 了 Softmax 回归 之 后 的 交叉 烂 。 在 只 有 一 个 正确 答案 的 分 类 问题 中 ， 
TensorFlow 提供 了 tfnn.sparse softmax cross_entropy_with logits 函数 来 进一步 加 速 计 算 过 
程 。 在 第 5 章 中 将 提供 使 用 这 个 函数 的 完整 样 例 。 

与 分 类 问题 不 同 ， 回 归 问 题解 决 的 是 对 具体 数值 的 预测 。 比 如 房价 预测 、 销 量 预测 等 
都 是 回归 问题 。 这 些 问 题 需 要 预测 的 不 是 一 个 事先 定义 好 的 类 别 ， 而 是 一 个 任意 实数 。 解 
决 回归 问题 的 神经 网 络 一 般 只 有 一 个 输出 节点 ， 这 个 节点 的 输出 值 就 是 预测 值 。 对 于 回归 
问题 ， 最 常用 的 损失 函数 是 均 方 误差 {MSE，mean squared error) 2 。 它 的 定义 如 下 ; 


2 
I 1 
ii 人 其 一 其 ) 


其 中 ;为 一 个 batch 中 第 i 个 数据 的 正确 管 案 , 而 yi 为 神经 网 络 给 出 的 预测 值 。 以 下 代 
码 展 示 了 了 如何 通 过 TensorFlow 实现 均 方 误差 损失 函数 ; 


mse = tf,reduce mean(tf.sguare(ly = Y)) 


QD 均 方 误差 也 是 分 类 问题 中 常用 的 一 种 损失 函数 。 
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其 中 y 代表 了 神经 网 络 的 输出 答案 ,，y_ 代 表 了 标准 答案 。 类 似 4.2.1 小 节 中 介绍 的 乘法 
操作 ， 这 里 的 减法 运算 “-” 也 是 两 个 矩阵 中 对 应 元 系 的 减法 。 


4.2.2 目 定 义 损 失 困 数 


TensorFlow 不 仅 支 持 经 典 的 损失 函数 ， 还 可 以 优化 任意 的 自 定 义 损失 函数 。 本 小 节 将 
介绍 如 何 通 过 自 定义 损失 函数 的 方法 , 使 得 神经 网 络 优化 的 结果 更 加 接近 实际 问题 的 需求 。 
在 下 面 的 篇 幅 中 将 以 预测 商品 销量 问题 为 例 。 

在 预测 商品 销量 时 ， 如 果 预 测 多 了 【预测 值 比 真 实 销 量 大 )， 商 家 损失 的 是 生产 商品 的 
成 本 ; 而 如 果 预 测 少 了 《预测 值 比 真实 销量 小 )， 损 失 的 则 是 商品 的 利润 。 因 为 一 般 商 品 的 
成 本 和 商品 的 利润 不 会 严格 相等 , 所 以 使 用 4.2.1 小 节 中 介绍 的 均 方 误差 损失 函数 就 不 能 鱼 
很 好 地 最 大 化 销售 利润 。 比 如 如 果 一 个 商品 的 成 本 是 1 元 ; 但 是 利润 是 10 元 ， 那 么 少 预测 
一 个 就 少 挣 10 元 ; 而 多 预测 一 个 才 少 挣 1 元 。 如 果 神 经 网 络 模型 最 小 化 的 是 均 方 误差 ， 那 
么 很 有 可 能 此 模型 就 无 法 最 大 化 预期 的 利润 。 为 了 最 大 化 预期 利润 ， 需 要 将 损失 函数 和 利 
润 直接 联系 起 来 。 注 意 损失 函数 定义 的 是 损失 ， 所 以 要 将 利润 最 大 化 ， 定 义 的 损失 函数 应 
该 刻画 成 本 或 者 代价 。 下 面 的 公式 给 出 了 一 个 当 预 测 多 于 真实 值 和 预测 少 于 真实 值 时 有 不 
同 损失 系数 的 损失 函数 : 

a(x—y) x>y 


Loss(y,y') = yf (pi,77), F(X,y)= 人 三 过 | 六 过 
i=] 本 


和 均 方 误差 公式 类 似 , yi 为 一 个 batch 中 第 i 个 数据 的 正确 答案 ，yi 为 神经 网 络 得 到 的 
预测 值 ，a 和 4b 是 常量 。 比 如 在 上 面 介绍 的 销量 预测 问题 中 ，a 就 等 于 10〈 正 确 管 案 多 于 
预测 答案 的 代价 )， 而 5b 等 于 1 (正确 答案 少 于 预测 答案 的 代价 )。 通 过 对 这 个 目 定 义 损失 
函数 的 优化 ， 模 型 提供 的 预测 值 更 有 可 能 最 大 化 收益 。 在 TensorFlow 中 ， 可 以 通过 以 下 代 
但 来 实现 这 个 损失 函数 。 

loss = tf.reduce suml(tf.select (tf.greater (vi, v2), 

Ca Vb) 

上 面 的 代码 用 到 了 tfgreater 入 select 来 实现 选择 操作 。 人 greater 的 输入 是 两 个 张 量 ， 
此 函数 会 比较 这 两 个 输入 张 量 中 每 一 个 元 素 的 大 小 ， 并 返回 比较 结果 。 当 tfgreater 的 输入 
张 量 维度 不 一 样 时 , TensorFlow 会 进行 类 似 NumPy 广播 操作 (broadcasting) 的 处 理 ”。tf.select 
函数 有 三 个 参数 。 第 一 个 为 选择 条 件 根 据 ， 当 选择 条 件 为 True 时 ，ttselect 函数 会 选择 第 
二 个 参数 中 的 值 , 否则 使 用 第 三 个 参数 中 的 值 。 注意 tfselect 函数 判断 和 选择 都 是 在 元 素 级 


DD http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html 中 有 关于 广播 操作 (broadcasting) 的 具体 讲解 。 
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别 进 行 ， 以 下 代码 展示 了 tfselect 函数 和 tf.greater 函数 的 用 法 。 


import tensorflow as tf 
vl = tf oonStantt on. 0 0 .450)))) 
V2 = tfaconstant([lA.07 3307 0 20, 1,0)) 


sess = tf.InteractiveSession() 
print tf.greater (vl, v2) .eval () 
# 输出 [False False True Truej 


print tf.select (tf.greater(vl, v2), Vl, v2) .eval () 
# 输出 [4. 3. 3. 4.] 


sess.close!() 


在 定义 了 损失 函数 之 后 ， 下 面 将 通过 一 个 简单 的 神经 网 络 程序 来 讲解 损失 函数 对 模型 
训练 结果 的 影响 。 在 下 面 这 个 程序 中 ， 实 现 了 一 个 拥有 两 个 输入 节 氮 、 一 个 输出 节点 ， 没 
有 隐藏 层 的 神经 网 络 。 这 个 程序 的 主体 流程 和 3.4.5 小 节 中 给 出 来 的 样 例 基 本 一 致 , 但 用 到 
了 上 面 定 义 的 损失 函数 。 

import tensorflow as tf 

from numpy.random import RandomState 


batch size = 8 


# 两 个 输入 节点 。 

x = tf.placeholder (tf.float32, shape=(None, 2), name='x-input') 
# 回归 问题 一 般 只 有 一 个 输出 节点 。 

y_ = tf.placeholder (tf.float32, shape=(None, 1), name="'y-input') 


# 定义 了 一 个 单 层 的 神经 网 络 前 向 传播 的 过 程 ， 这 里 就 是 简单 加 权 和 。 
wl = tf.Variable(tf.random normal([2, 1], stddev=1, seed=1)) 
y = tf.matmul (x, wl) 


# 定义 预测 多 了 和 预测 少 了 的 成 本 。 
loss- less = 10 
losssmore .=I1 
loss = tf.reduce suml(tf.select (tf.greaterl(y, Y_)， 
(yy’ ~ Y ) *'loss more, 
(Vy) OBS LeSs)) 
train step = tf.train.AdamOptimizer(0.001) .minimize (loss) 


# 通过 随机 数 生成 一 个 模拟 数据 集 。 
rdm = RandomState(1) 
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dataset size = 128 

X= rdm.rand(dataset size, 2) 

# 设置 回归 的 正确 值 为 两 个 输入 的 和 加 上 一 个 随机 量 。 之 所 以 要 加 上 一 个 随机 量 是 为 了 

# 加 入 不 可 预测 的 噪音 ， 否 则 不 同 损 失 函 数 的 意义 就 不 大 了 ， 因 为 不 同 损失 函数 都 会 在 能 

# 完全 预测 正确 的 时 候 最 低 。 一 般 来 说 噪音 为 一 个 均值 为 0 的 小 量 ， 所 以 这 里 的 噪音 设置 为 
# -0.05 ~ 0.05 的 随机 数 。 

Y= [Ctx + x +t rdm.randt) /T000051 for (X12 nN 


# 训练 神经 网 络 。 
with tf.Session() as sess: 
init op = tf.initialize all variables() 
sess.runl(init op) 
STEPS = 5000 
for 1 in range (STEPS): 
start = (i * batch size) % dataset size 
end = minl(start+batch size, dataset size) 
sess.run(train step, 
teed dict={x: X[start:end], Yy :; Y[start:end])) 
print sess.run (wl) 


运行 上 面 的 代码 会 得 到 wi 的 值 为 [1.01934695, 1.04280889]， 也 就 是 说 得 到 的 预测 函数 
是 Xi+xz， 这 要 比 1.02xi+1.04x2 大 ， 因 为 在 损失 函数 中 指定 预测 少 了 的 损失 更 大 
(loss_less>loss_more)。 如 果 将 loss_less 的 值 调整 为 1，loss_more 的 值 调整 为 10， 那 么 wi 
的 值 将 会 是 [0.95525807，0.9813394]。 也 就 是 说 ， 在 这 样 的 设置 下， 模型 会 更 加 偏向 于 预 
测 少 一 点 。 而 如 果 使 用 均 方 误差 作为 损失 函数 ， 那 么 wi 会 是 [0.97437561，1.0243336]。 使 
用 这 个 损失 函数 会 尽量 让 预测 值 离 标 准 答 案 更 近 。 通 过 这 个 样 例 可 以 感受 到 ， 对 于 相同 的 
神经 网 络 ， 不 同 的 损失 函数 会 对 训练 得 到 的 模型 产生 重要 影响 。 


4.3 ”和 神经 网 络 优化 算法 


本 市 将 更 加 上 有 具体 地 介绍 如 何 通 过 反 向 传播 算法 (backpropagation) 和 梯度 下 降 算法 
(gradient decent) 调 整 神经 网 络 中 参数 的 取 值 梯度 下 降 算 法 主要 用 于 优化 单个 参数 的 取 值 ， 
而 反问 传播 算法 给 出 了 一 个 高 效 的 方式 在 所 有 参数 上 使 用 梯度 下 降 算 法 ， 从 而 使 神经 网 络 
模型 在 训练 数据 上 的 损失 函数 尽 可 能 小 。 反 向 传播 算法 是 训练 神经 网 络 的 核心 算法 ， 它 可 
以 根据 定义 好 的 损失 函数 优化 神经 网 络 中 参数 的 取 值 ， 从 而 使 神经 网 络 模型 在 训练 数据 集 
上 的 损失 函数 达到 一 个 较 小 值 。 神 经 网 络 模型 中 参数 的 优化 过 程 直接 决定 了 模型 的 质量 ， 
是 使 用 神经 网 络 时 非常 重要 的 一 步 。 在 本 节 中 ， 将 主要 介绍 神经 网 络 优化 过 程 的 基本 概念 
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和 主要 思想 ， 而 略 去 算法 的 数学 推导 和 证 明 ". 本 节 将 给 出 一 个 具体 的 样 例 来 解释 使 用 梯度 
下 降 算法 优化 参数 取 值 的 过 程 。 在 下 面 的 4.4 节 中 ， 将 继续 介绍 的 神经 网 络 优 化 过 程 中 可 
能 遇 到 的 问题 和 解决 方法 ， 擎 握 本 节 内 容 可 以 帮助 更 好 地 理解 这 些 优化 方法 。 

假设 用 8 表示 神经 网 络 中 的 参数 ，J(9) 表 示 在 给 定 的 参数 取信 下 ， 训 练 数据 集 上 损失 
函数 的 大 小 ;那么 整个 优化 过 程 可 以 抽象 为 寻找 一 个 参数 6， 使 得 (6) 最 小 。 因 为 目前 没 
有 一 个 通用 的 方法 可 以 对 任意 损失 函数 直接 求解 最 佳 的 参数 取 值 ， 所 以 在 实践 中 ， 梯 度 下 
降 算法 是 最 常用 的 神经 网 络 优化 方法 。 梯 度 下 降 算 法 会 从 代 式 更 新 参数 凡 ， 不 断 沿 着 梯度 
的 反方 向 让 参数 朝 独 总 损失 更 小 的 方向 更 新 。 图 4-11 展示 了 梯度 下 降 算 法 的 原理 。 


1(8) 


图 4-11 梯度 下 降 算 法 思想 示意 图 


4-11 中 x 辅 表示 参数 9 的 取 值 ， ” 轴 表 示 损 失 函 数 .J(b) 的 值 。 图 4.11 的 曲线 表示 了 
在 参数 0 取 不 同 值 时， 对 应 损失 函数 .J(6) 的 大 小 。 假 设 当前 的 参数 和 损失 值 对 应 图 本 11 中 
小 圆 点 的 位 置 ， 那 么 梯度 下 降 算法 会 将 参数 向 x 轴 左 侧 移动 ， 从 而 使 得 小 圆 点 朝 着 箭头 的 
方向 移动 。 参 数 的 梯度 可 以 通过 求 偏 导 的 方式 计算 ， 对 于 参数 9 ， 其 梯度 为 (0). 有 了 


梯度 ， 还 需要 定义 一 个 学 习 率 7 2 (learning rate) 来 定义 每 次 参数 更 新 的 幅度 。 从 直观 上 理 

解 ， 可 以 认为 学 习 率 定义 的 就 是 每 次 参数 移动 的 幅度 。 通 过 参数 的 梯度 和 学 习 率 ， 参 数 更 
新 的 公式 为 ; 

a0, 

下 面 给 出 了 一 个 具体 的 例子 来 说 明 梯 度 下 降 算 法 是 如 何 工作 的 。 假 设 要 通过 梯度 下 降 


J( 0,) 





Oni = 0, pr 1 


中 更 多 关于 反 向 传播 算法 的 细节 可 以 参见 : Rumelhart D E, Hinton G E, Williams R J Learning 
representations by back-propagating errors [M]Neurocomputing: foundations of research. MIT Press, 1986.。 


@@ 学 习 率 的 设置 将 在 44.1 小 节 中 详细 介绍 。 
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算法 来 优化 参数 x， 使 得 损失 函数 .oo=x 的 值 尽 量 小 。 梯 度 下 降 算 法 的 第 一 步 需要 随机 产 
生 一 个 参数 x 的 初始 值 ， 然 后 再 通过 梯度 和 学 习 率 来 更 新 参数 x 的 取 值 。 在 这 个 样 例 中 ， 


参数 x 的 梯度 为 V- 一 时 -2x， 那么 使 用 梯度 下 降 算 法 每 次 对 参数 x 的 更 新 公式 为 


Xxntl=Xn 一 7Vn。 假 设 参数 的 初始 值 为 5, 学 习 率 为 0.3, 那么 这 个 优化 过 程 可 以 总 结 为 表 4-1。 


表 4-1 使 用 梯度 下 降 算法 优化 函数 (x)=x? 
梯度 x 学 习 率 更 新 后 参数 值 





从 表 4-1 中 可 以 看 出 ， 经 过 5 次 达 代 之 后 ， 参 数 x 的 值 变 成 了 0.0512， 这 个 和 参数 最 
优 值 0 已 经 比较 接近 了 。 虽 然 这 里 给 出 的 是 一 个 非常 简单 的 样 例 ， 但 是 神经 网 络 的 优化 过 
程 也 是 可 以 类 推 的 。 神 经 网 络 的 优化 过 程 可 以 分 为 两 个 阶段 ， 第 一 个 阶段 先 通 过 前 同 传播 
算法 计算 得 到 预测 值 ， 并 将 预测 值 和 真实 值 做 对 比 得 出 两 者 之 间 的 达 距 。 然 后 在 第 二 个 阶 
段 通过 反 向 传播 算法 计算 损失 函数 对 每 一 个 参数 的 梯度 ， 再 根据 梯度 和 学 习 率 使 用 梯度 下 
降 算 法 更 新 每 一 个 参数 。 本 书 将 略 去 反 向 传播 算法 具体 的 实现 方法 和 数学 证 明 ， 有 兴趣 的 
读者 可 以 参考 David Rumelhart、Geoffrey Hinton 和 了 Ronald Williams 教授 发 表 的 论文 Learning 
representations by back-propagating errors”。 

需要 注意 的 是 ， 梯 度 下 降 算 法 并 不 能 保证 被 优化 的 函数 达到 全 局 最 优 解 。 如 图 4-12 所 
示 ， 图 中 给 出 的 函数 就 有 可 能 只 能 得 到 局 部 最 优 解 而 不 是 全 局 最 优 解 。 在 小 黑 点 处 ， 损 失 
函数 的 偏 导 为 0， 于 是 参数 就 不 会 再 进一步 更 新 。 在 这 个 样 例 中 ， 如 果 参 数 x 的 初始 值 洛 


只 有 当 x 的 初始 值 落 在 左 侧 浅 色 的 区 间 时 梯度 下 降 才 能 给 出 全 局 最 优 答案 。 由 此 可 见 在 训 
练 神经 网 络 时 ， 参 数 的 初始 值 会 很 大 程度 影响 最 后 得 到 的 结果 。 只 有 当 损 失 函 数 为 凸 函数 
时 ， 梯 度 下 降 算 法 才能 保证 达到 全 局 最 优 解 。 


GD Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors [MI]. 


Neurocomputing: foundations of research. MIT Press, 1986. 
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/6) 





全 


图 4-12 梯度 下 降 算法 得 不 到 全 局 最 小 值 的 样 例 


除了 不 一 定 能 达到 全 局 最 优 外 ， 梯 度 下 降 算 法 的 另外 一 个 问题 就 是 计算 时 间 太 长 。 
为 要 在 全 部 训练 数据 上 最 小 化 损失 ， 所 以 损失 函数 .7(2) 是 在 所 有 训练 数据 上 的 损失 和 。 这 
样 在 每 一 轮 友 代 中 都 需要 计算 在 全 部 训练 数据 上 的 损失 函数 。 在 海量 训练 数据 下 ， 要 计算 
所 有 训练 数据 的 损失 函数 是 非常 消耗 时 间 的 。 为 了 加 速 训 练 过 程 ， 可 以 使 用 随机 梯度 下 降 
的 算法 〈stochastic gradient descent)。 这 个 算法 优化 的 不 是 在 全 部 训练 数据 上 的 损失 函数 ， 
而 是 在 每 一 轮 达 代 中 ， 随 机 优化 某 一 条 训练 数据 上 的 损失 函数 。 这 样 每 一 轮 参 数 更 新 的 速 
度 就 大 大 加 快 了 。 因 为 随机 梯度 下 降 算 法 每 次 优化 的 只 是 某 一 条 数据 上 的 损失 函数 ， 所 以 
它 的 问题 也 非常 明显 : 在 某 一 条 数据 上 损失 函数 更 小 并 不 代表 在 全 部 数据 上 损失 函数 更 小 ， 
于 是 使 用 随机 梯度 下 降 优 化 得 到 的 神经 网 络 甚至 可 能 无 法 达到 局 部 最 优 。 

为 了 综合 梯度 下 降 算 法 和 随机 梯度 下 降 算 法 的 优 缺 点 ， 在 实际 应 用 中 一 般 采 用 这 两 个 
算法 的 折 中 一 一 每 次 计算 一 小 部 分 训练 数据 的 损失 函数 。 这 一 小 部 分 数据 被 称 之 为 一 个 
batch。 通 过 和 矩阵 运算 ， 每 次 在 一 个 batch 上 优化 神经 网 络 的 参数 并 不 会 比 单个 数据 慢 太 多 。 
另 一 方面 ， 每 次 使 用 一 个 batch 可 以 大 大 减 小 收 伊 所 需要 的 友 代 次 数 ， 同 时 可 以 使 收敛 到 
的 结果 更 加 接近 梯度 下 降 的 效果 。 以 下 代码 给 出 了 在 TensorFlow 中 如 何 实现 神经 网 络 的 训 
练 过 程 。 在 本 书 的 所 有 样 例 中 ， 神 经 网 络 的 训练 都 大 致 遵循 以 下 过 程 。 


batch size = n 
# 每 次 读 取 一 小 部 分 数据 作为 当前 的 训练 数据 来 执行 反 辐 传播 算法 。 


x = tf.placeholder(tf.float32, shape=(batch size, 2), A: 
y_ = tf.placeholder (tf.float32, shape=(batch size, 1), name='y-input') 


# 定义 神经 网 络 结构 和 优化 算法 。 
loss = :。 
train step = tf.train.AdamOptimizer(0.001) .minimize (loss) 


# 训练 神经 网 络 。 
with tf.Session() as sess: 


# 参数 初始 化 。 
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# 迁 代 的 更 新 参数 。 
for i in range (STEPS): 
# 谁 备 batch size 个 训练 数据 。 一 般 将 所 有 训练 数据 随机 打 乱 之 后 再 选取 可 以 得 到 
# 更 好 的 优化 效果 。 
”SUrrentily CUrrento Yt 3.,. 
sess.run(train step;: feed dGict={x: CuUrrent X,; y : current Y)) 


4.4 和 神经 网 络 进一步 优化 


4.3 节 人 外 绍 了 优化 神经 网 络 的 基本 算法 , 本 节 将 继续 介绍 神经 网 络 优化 过 程 中 可 能 遇 到 
的 一 些 问题 ， 以 及 解决 这 些 问题 的 常用 方法 。4.4.1 小 节 将 介绍 通过 指数 衰减 的 方法 设置 梯 
度 下 降 算 法 中 的 学 习 率 。 通 过 指数 衰减 的 学 习 率 即 可 以 让 模型 在 训练 的 前 期 快速 接近 较 优 
解 ， 又 可 以 保证 模型 在 训练 后 期 不 会 有 太 大 的 波动 ， 从 而 更 加 接近 局 部 最 优 。 然 后 4.4.2 小 
节 将 介绍 过 拟 合 问题 。 在 训练 复杂 神经 网 络 模型 时 ， 过 拟 合 是 一 个 非常 常见 的 问题 。 这 一 
小 节 将 具体 介绍 这 个 问题 的 影响 以 及 解决 这 个 问题 的 主要 方法 .最 后 4.4.3 小 节 将 介绍 滑动 
平均 模型 。 滑 动 平均 模型 会 将 每 一 轮 和 迭代 得 到 的 模型 综合 起 来 ， 从 而 使 得 最 终 得 到 的 模型 
更 加 健壮 (robust)。 


4.4.1 ”学习 率 的 设置 


4.3 节 介 绍 了 在 训练 神经 网 络 时 , 需要 设置 学 习 率 (learning rate) 控制 参数 更 新 的 速度 。 
本 小 节 将 进一步 介绍 如 何 设置 学 习 率 。 学 习 率 决定 了 参数 每 次 更 新 的 幅度 。 如 果 幅 度 过 大 ， 
那么 可 能 导致 参数 在 极 优 值 的 两 侧 来 回 移动 。4.3 节 介绍 过 优化 J(x)=x’ 函数 的 样 例 。 如 果 
在 优化 中 使 用 的 学 习 率 为 1， 那么 整个 优化 过 程 将 会 如 表 4-2 所 示 。 


表 4-2 当 学 习 率 过 大 了 时， 梯度 下 降 算 法 的 运行 过 程 
I 


从 上 面 的 样 例 可 以 看 出 ， 无 论 进行 多 少 轮 迭代， 参数 将 在 5 和 -5 之 间 摇 摆 ， 而 不 会 收 
合 到 一 个 极 小 值 。 相 反 ， 当 学 习 率 过 小 时 ,虽然 能 保证 收敛 性 ， 但 是 这 会 大 大 降低 优化 速 
度 。 我 们 会 需要 更 多 轮 的 迭代 才能 达到 一 个 比较 理想 的 优化 效果 。 比 如 当 学 习 率 为 0.001 
时 ， 达 代 5 次 之 后 ，x 的 值 将 为 4.95。 要 将 x 训练 到 0.05 需要 大 约 2300 轮 ; 而 当 学 习 率 为 
0.3 时 ， 只 需要 5 轮 就 可 以 达到 。 综 上 所 述 ， 学 习 率 既 不 能 过 大 ， 也 不 能 过 小 。 为 了 解决 设 
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定 学 习 率 的 问题 ，TensorFlow 提供 了 一 种 更 加 灵活 的 学 习 率 设置 方法 一 一 指数 衰减 法 。 
tf.train.exponential_decay 函数 实现 了 指数 娶 减 学 习 率 。 通 过 这 个 函数 ， 可 以 先 使 用 较 大 的 学 
习 率 来 快速 得 到 一 个 比较 优 的 解 ， 然 后 随 着 迭代 的 继续 逐步 减 小 学 习 率 ， 使 得 模型 在 训练 后 
期 更 加 稳定 。exponential decay 函数 会 指数 级 地 减 小 学 习 率 ， 它 实现 了 以 下 代码 的 功能 : 


decayed learning rate = \ 
learning rate * decay rate ^ (global step / decay steps) 


其 中 decayed leaming_rate 为 每 一 轮 优 化 时 使 用 的 学 习 率 ，leaming_rate 为 事先 设 定 的 
初始 学 习 率 ，decay_rate 为 衰减 系数 ，decay_steps 为 衰减 速度 。 图 4-13 显示 了 随 着 友 代 轮 
数 的 增加 ,学 习 率 逐步 降低 的 过 程 。 攻 train,exponential decay 函数 可 以 通过 设置 参数 staircase 
选择 不 同 的 衰减 方式 。staircase 的 默认 值 为 False， 这 时 学 习 率 随 进 代 轮 数 变 化 的 趋势 如 图 
4-13 中 灰色 曲线 所 示 。 当 staircase 的 值 被 设置 为 True 时 ，global step / decay steps 会 被 转 
化 成 整数 。 这 使 得 学 习 率 成 为 一 个 阶梯 函数 (staircase function)。 图 4-13 中 黑色 曲线 显示 
了 阶梯 状 的 学 习 率 。 在 这 样 的 设置 下 ，decay steps 通常 代表 了 完整 的 使 用 一 遍 训练 数据 所 
需要 的 返 代 轮 数 。 这 个 友 代 轮 数 也 就 是 总 训练 样本 数 除 以 每 一 个 batch 中 的 训练 样本 数 。 
这 种 设置 的 常用 场景 是 每 完整 地 过 完 一 遍 训 练 数据 ， 学 习 率 就 减 小 一 次 。 这 可 以 使 得 训练 
数据 集中 的 所 有 数据 对 模型 训练 有 相等 的 作用 。 当 使 用 连续 的 指数 衰减 学 习 率 时 ， 不 同 的 
训练 数据 有 不 同 的 学 习 率 ， 而 当 学 习 率 减 小 时 ， 对 应 的 训练 数据 对 模型 训练 结果 的 影响 也 就 
小 了 。 下 面 给 出 了 一 段 代 码 来 示范 如 何在 TensorFlow 中 使 用 引 train.exponential decay 函数 。 





一 一 阶 培 状态 减 字 习 率 一 一 连 烤 豪 减 池 习 率 


ne 


si 101. 13137 201 25 301 351 401 A451 501 55I 601 651 701 751 801 851 S01 3931 
训练 法 慌 轮 次 
图 4-13 ”指数 衰减 学 习 率 随 着 磷 代 轮 数 的 变化 图 
(图 中 使 用 的 基础 学 习 率 为 0.1， 豪 减 率 为 0,9， 豪 减速 度 为 50) 
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global step = tf.Variable{(0) 


# 通过 exponential decay 函数 生成 学 习 率 。 
learning rate = tf.train.expornential decay ( 
0.1: global step, 100, 0.96, staircase=True) 


# 使 用 指数 衰减 的 学 习 率 。 在 minimize 函数 中 传 入 global step 将 自动 更 新 

# global step 参数 ， 从 而 使 得 学 习 率 也 得 到 相应 更 新 。 

learning Step = tf.train.GradientDescentOptimizer(learning rate)\ 
.minimize(...my loss,..; global step=global step) 


上 面 这 段 代 码 中 设 定 了 初始 学 习 率 为 0.1， 因 为 指定 了 staircase=True， 所 以 每 训练 100 
轮 后 学 习 率 乘 以 0.96。 一 般 来 说 初始 学 习 率 、 衰 减 系 数 和 衰减 速度 都 是 根据 经 验 设 置 的 。 
而 且 损失 函数 下 降 的 速度 和 迁 代 结束 之 后 总 损失 的 大 小 没有 必然 的 联系 。 也 就 是 说 并 不 能 
通过 前 儿 轮 损失 函数 下 降 的 速度 来 比较 不 同 神经 网 络 的 效果 。 


4.4.2 ”过 拟 合 问题 


上 面 的 4.2 和 4.3 节 讲述 了 如 何在 训练 数据 上 优化 一 个 给 定 的 损失 函数 。 然 而 在 真实 的 
应 用 中 想 要 的 并 不 是 让 模型 尽量 模拟 训练 数据 的 行为 ， 而 是 希望 通过 训练 出 来 的 模型 对 未 
知 的 数据 给 出 判断 。 模 型 在 训练 数据 上 的 表现 并 不 一 定 代表 了 它 在 未 知 数据 上 的 表现 。 本 
小 节 将 介绍 的 过 拟 合 问题 就 是 可 以 导致 这 个 差距 的 一 个 很 重要 因素 。 所 谓 过 拟 侣 ， 指 的 是 
当 一 个 模型 过 为 复杂 之 后 ， 它 可 以 很 好 地 “记忆 ”每 一 个 训练 数据 中 随机 噪音 的 部 分 而 忘 
记 了 要 去 “学 习 ” 训 练 数据 中 通用 的 趋势 。 举 一 个 极端 的 例子 ， 如 果 一 个 模型 中 的 参数 
比 训练 数据 的 总 数 还 多 ， 那 么 只 要 训练 数据 不 冲突 ， 这 个 模型 完全 可 以 记 住所 有 训练 数 
据 的 结果 从 而 使 得 损失 函数 为 0。 可 以 直观 地 想象 一 个 包含 n 个 变量 和 个 等 式 的 方程 组 ， 
当 方程 不 冲突 时 ， 这 个 方程 组 是 可 以 通过 数学 的 方法 来 求解 的 。 然 而 ， 过 度 拟 合 训练 数 
据 中 的 随机 噪音 虽然 可 以 得 到 非常 小 的 损失 函数 ， 但 是 对 于 未 知 数据 可 能 无 法 做 出 可 靠 
的 判断 。 

图 4-14 显示 了 模型 训练 的 三 种 不 同情 况 。 在 第 一 种 情况 下 ， 由 于 模型 过 于 简单 ， 无 法 
刻画 问题 的 趋势 。 第 二 个 模型 是 比较 合理 的 ， 它 既 不 会 过 于 关注 训练 数据 中 的 噪音 ， 又 能 
够 比较 好 地 刻画 问题 的 整体 趋势 。 第 三 个 模型 就 是 过 拟 合 了 ， 虽 然 第 三 个 模型 完美 地 划分 
了 不 同形 状 的 点 ， 但 是 这 样 的 划分 并 不 能 很 好 地 对 未 知 数据 做 出 判断 ， 因 为 它 过 度 拟 合 了 
训练 数据 中 的 噪音 而 忽视 了 问题 的 整体 规律 。 比 如 图 中 浅 色 方 框 “ 口 ” 更 有 可 能 和 “X?” 
属于 同一 类 ， 而 不 是 根据 图 上 的 划分 和 “0O” 属 于 同一 类 。 
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中 














. 模型 过 于 简单 





图 4-14 ”神经 网 络 模型 训练 的 三 种 情况 


为 了 避免 过 拟 合 问题 ， 一 个 非常 常用 的 方法 是 正则 化 (regularization )。 正 则 化 的 思想 
就 是 在 损失 函数 中 加 入 刻画 模型 复杂 程度 的 指标 。 假 设 用 于 刻画 模型 在 训练 数据 上 表现 的 
损失 函数 为 7(9) ,那么 在 优化 时 不 是 直接 优化 7(9) ,而 是 优化 J(6)+4R(w)。 其 中 R(w) 刻 
男 的 是 模型 的 复杂 程度 ， 而 4 表示 模型 复杂 损失 在 总 损失 中 的 比例 。 注意 这 里 9 表示 的 是 一 
个 神经 网 络 中 所 有 的 参数 ， 它 包括 边 上 的 权重 w 和 偏 置 项 5。 一 般 来 说 模型 复杂 度 只 由 权重 
w 决定 。 篆 用 的 刻画 模型 复杂 上 度 的 函数 R(w) 有 两 种 ， 一 种 是 L1 正则 化 ， 计 算 公 式 是 : 

gow) =|ol = Fhe 


另 一 种 是 22 正则 化 ， 计 算 公 式 是 : 
ROW=| = he’ 


无 论 是 哪 一 种 正则 化 方式 ， 基 本 的 思想 都 是 希望 通过 限制 权重 的 大 小 ， 使 得 模型 不 能 
任意 拟 合 训练 数据 中 的 随机 噪音 。 但 这 两 种 正则 化 的 方法 也 有 很 大 的 区 别 。 首 先 ,，Z1 正则 
化 会 让 参数 变 得 更 稀疏 ， 而 Z2 正则 化 不 会 。 所 谓 参数 变 得 更 稀疏 是 指 会 有 更 多 的 参数 变 为 
0， 这 样 可 以 达到 类 似 特征 选取 的 功能 。 之 所 以 L2 正则 化 不 会 让 参数 变 得 稀疏 的 原因 是 当 
参数 很 小 时 ， 比 如 0.001， 这 个 参数 的 平方 基本 上 就 可 以 忽略 了 ， 于 是 模型 不 会 进一步 将 这 
个 参数 调整 为 0。 其 次 ，Z1 正则 化 的 计算 公式 不 可 导 ， 而 Z2 正则 化 公式 可 导 。 因 为 在 优 
化 时 需要 计算 损失 函数 的 偏 导数 , 所 以 对 含有 Z2 正则 化 损失 函数 的 优化 要 更 加 简洁 。 优化 
带 L1 正则 化 的 损失 函数 要 更 加 复杂 ， 而 且 优 化 方法 也 有 很 多 种 。 在 实践 中 ， 也 可 以 将 L1 
正则 化 和 Z2 正则 化 同时 使 用 : 

ROW = 2 alw|+( -oa)w 
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4.2 小 节 提 到 过 TensorFlow 可 以 优化 任意 形式 的 损失 函数 ， 所 以 TensorFlow 目 然 也 可 
以 优化 带 正则 化 的 损失 函数 。 以 下 代码 给 出 了 一 个 简单 的 带 L2 正则 化 的 损失 函数 定义 ; 


w= tf.Variable (tf.random normal([2r 1], stddev=1, seed=1)) 
Y = tf.matmul (x, WwW) 


loss = tf.reduce mean (tf .square(yY 一 y)) + 
tf.contrib.layers.12 regularizer (lambda) (w) 


在 上 面 的 程序 中 ，loss 为 定义 的 损失 函数 ， 它 由 两 个 部 分 组 成 。 第 一 个 部 分 是 4.2.1 小 
节 中 介绍 的 均 方 误差 损失 函数 ， 它 刻画 了 模型 在 训练 数据 上 的 表现 。 第 二 个 部 分 就 是 正则 
化 ， 它 防止 模型 过 度 模拟 训练 数据 中 的 随机 噪音 。lambda 参数 表示 了 正则 化 项 的 权重 ， 也 
就 是 公式 J(0)+4R(w) 中 的 4 。w 为 需要 计算 正则 化 损失 的 参数 。TensorFlow 提供 了 
tf.contrib.layers.1l2_regularizer 函数 ， 它 可 以 返回 一 个 函数 ， 这 个 函数 可 以 计算 一 个 给 定 参数 
的 Z2 正 则 化 项 的 值 。 类 似 的 ,tfcontrib.layers.11 regularizer 可 以 计算 Ll 正则 化 项 的 值 。 以 
下 代码 给 出 了 使 用 这 两 个 函数 的 样 例 ; 
weights = tf.constant ([{1.0, -2.0], {=~3.0, 4.0]]) 
with tf.Session() as sess: 
# 输出 为 (111+1=21+1-31+141)x0.5=5。 其 中 0.5 为 正则 化 项 的 权重 。 
print sess.runl(tf,contrib.layers.]1l1 IegularIzer(.5) (weights)) 
# 输出 为 (1+(-2) 人 +(-3)+4*)/2x0.5=7.52。 
print sess.run(tf.contrib.layers.12 regularizer(.5) (weights)) 


在 简单 的 神经 网 络 中 ， 这 样 的 方式 就 可 以 很 好 地 计算 带 正 则 化 的 损失 函数 了 。 但 当 神 
经 网 络 的 参数 增多 之 后 ， 这 样 的 方式 首先 可 能 导致 损失 函数 loss 的 定义 很 长 ， 可 读 性 差 且 
容易 出 错 。 但 更 主要 的 是 ， 当 网 络 结构 复杂 之 后 定义 网 络 结构 的 部 分 和 计算 损失 函数 的 部 
分 可 能 不 在 同一 个 函数 中 ， 这 样 通过 变量 这 种 方式 计算 损失 函数 就 不 方便 了 。 为 了 解决 这 
个 问题 ， 可 以 使 用 TensorFlow 中 提供 的 集合 〈collection)。 集 合 的 概念 在 3.1 节 中 介绍 过 ， 
它 可 以 在 一 个 计算 图 (tf.Graph〉 中 保存 一 组 实体 (比如 张 量 )。 以 下 代码 给 出 了 通过 集合 
计算 一 个 5 层 神经 网 络 带 L2 正则 化 的 损失 函数 的 计算 方法 。 


import tensorflow as tf 


# 获取 一 层 神 经 网 络 边 上 的 权重 ， 并 将 这 个 权重 的 工 2 正则 化 损失 加 入 名 称 为 '1osses' 的 集合 中 
def get weight (shape, lambda): 

# 生成 一 个 变量 。 

Var = tf.Variable (tf.random normal (shape), dtype = tft.float32) 


(人 TensorFlow 会 将 L2 的 正则 化 损失 值 除 以 2 使 得 求 导 得 到 的 结果 更 加 人 简洁， 
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# add to_collection 函数 将 这 个 新 生成 变量 的 L2 正则 化 损失 项 加 入 集合 。 

# 这 个 函数 的 第 一 个 参数 '1osses ' 是 集合 的 名 字 ， 第 二 个 参数 是 要 加 入 这 个 集合 的 内 容 。 

tt .add to collection( 
'losses',tf.contrib.layers.12 regularizer (lambda) (var)) 

# 返回 生成 的 变量 。 


return var 


x = tf.placeholder (tf.float32, shape= (None, 2)) 
Y_ = tf.placeholder (tf.float32, shape=(None, 1)) 
batch size = 8 

# 定义 了 每 一 层 网 络 中 节点 的 个 数 。 

iayeridimensionl = [2% LOR LOAULOR LI 

# 神经 网 络 的 层 数 。 


n layers = lenl(layer dimension) 


# 这 个 变量 维护 前 向 传播 时 最 深层 的 节点 ， 开 始 的 时 候 就 是 输入 层 。 
CUr layer = Xx 
# 当前 层 的 节点 个 数 。 


in dimension = layer dimension[0] 


# 通过 一 个 循环 来 生成 5 层 全 连接 的 神经 网 络 结构 。 

for 1 In range(ll, n layers): 
# layer dimension[i] 为 下 一 层 的 节操 个 数 。 
out dimension = layer Qimension[il] 
# 生成 当前 层 中 权重 的 变量 ， 并 将 这 个 变量 的 工 2 正则 化 损失 加 入 计算 图 上 的 集合 。 
weight = get weight ([in dimension, out dimension], 0.001) 
bias = tf.Variable(tf.constant (0.1, shape=[out dimension])) 
# 使 用 ReLU 激活 函数 。 
cur layer = tf.nn.relu(tf.matmul (cur layer, weight) + 0) 
# 进入 下 一 层 之 前 将 下 一 层 的 节点 个 数 更 新 为 当前 层 节点 个 数 。 \ 


in dimension = layer Qimension[il] 


# 在 定义 神经 网 络 前 向 传播 的 同时 已 经 将 所 有 的 L2 正则 化 损失 加 入 了 图 上 的 集合 
# 这 里 只 需要 计算 刻画 模型 在 训练 数据 上 表现 的 损失 函数 。 


mse loss = tf.reduce mean(tft.square (Y 一 cur layer)) 


# 将 均 方 误差 损失 函数 加 入 损失 集合 。 


tf .add to collection('losses', mse loss) 


# get _collection 返回 一 个 列表 ， 这 个 列表 是 所 有 这 个 集合 中 的 元 素 。 在 这 个 样 例 中 ， 
# 这 些 元 素 就 是 损失 函数 的 不 同 部 分 ， 将 它们 加 起 来 就 可 以 得 到 最 终 的 损失 函数 。 


loss = tf.add n(tf.get collection('losses')) 


从 上 面 的 代码 可 以 看 出 通过 使 用 集合 的 方法 在 网 络 结构 比较 复杂 的 情况 下 可 以 使 代码 
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的 可 读 性 更 高 .上面 的 代码 给 出 的 是 一 个 只 有 5 层 的 全 连接 网 络 , 在 更 加 复杂 的 网 络 结构 中 ， 
使 用 这 样 的 方式 来 计算 损失 函数 将 大 大 增强 代码 的 可 读 性 。 


4.4.3 ”滑动 平均 模型 


这 一 个 小 节 将 介绍 另外 一 个 可 以 使 模型 在 测试 数据 上 更 健壮 (robust) 的 方法 一 一 滑动 
平均 模型 。 在 采用 随机 梯度 下 降 算 法 训练 神经 网 络 时 ， 使 用 滑动 平均 模型 在 很 多 应 用 中 都 
可 以 在 一 定 程度 提高 最 终 模 型 在 测试 数据 上 的 表现 。 

在 TensorFlow 中 提供 了 tftrain.ExponentialMovingAverage 来 实现 滑动 平均 模型 。 在 初 
始 化 ExponentialMovingAverage 时 ,需要 提供 一 个 衰减 率 (decay)。 这 个 衰减 率 将 用 于 控制 
模型 更 新 的 速度 。ExponentialMovingAverage 对 每 一 个 变量 会 维护 一 个 影子 变量 (shadow 
variable)， 这 个 影子 变量 的 初始 值 就 是 相应 变量 的 初始 值 ， 而 每 次 运行 变量 更 新 时 ， 影 子 
变量 的 值 会 更 新 为 : 

shadow_variable = decay xshadow_variable +(1— decay) x variable 

其 中 shadow_variable 为 影子 变量 ，variable 为 待 更 新 的 变量 ，decay 为 衰减 率 。 从 公式 
中 可 以 看 到 ，decay 决定 了 模型 更 新 的 速度 ，decay 越 大 模型 越 趋 于 稳定 。 在 实际 应 用 中 ， 
decay 一 般 会 设 成 非常 接近 1 的 数 〈 比 如 0.999 或 0.9999)。 为 了 使 得 模型 在 训练 前 期 可 以 
更 新 得 更 快 ，ExponentialMovingAverage 还 提供 了 num_updates 参数 来 动态 设置 decay 的 大 
小 。 如 果 在 ExponentialMovingAverage 初始 化 时 提供 了 num_updates 参数 , 那么 每 次 使 用 的 
衰减 率 将 是 ; 

l+num updates 
min decay, 一 -一 一 一 
| 10+ | 


下 面 通过 一 段 代 码 来 解释 ExponentialMovingAverage 是 如 何 被 使 用 的 。 


import tensorflow as tf 


# 定义 一 个 变量 用 于 计算 滑动 平均 ， 这 个 变量 的 初始 值 为 0。 注意 这 里 手动 指定 了 变量 的 
# 类 型 为 tf,float32， 因 为 所 有 需要 计算 滑动 平均 的 变量 必须 是 实数 型 。 

vl = tf.Variable(0, dtype=tf.float32) 

# 这 里 step 变量 模拟 神经 网 络 中 达 代 的 轮 数 ， 可 以 用 于 动态 控制 衰减 率 。 

step = tf.Variable(0, trainable=False) 


# 定义 一 个 滑动 平均 的 类 (class)。 初 始 化 时 给 定 了 衰减 率 (0 .99) 和 控制 衰减 率 的 变量 step。 
ema = tf.train.ExponentialMovingAverage(0.99, step) 

# 定义 一 个 更 新 变量 滑动 平均 的 操作 。 这 里 需要 给 定 一 个 列表 ， 每 次 执行 这 个 操作 时 

# 这 个 列表 中 的 变量 都 会 被 更 新 。 


maintain averages op = ema.apply([vi]) 
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with tf.Session() as sess: 
# 初始 化 所 有 变量 。 
init op = tf.initialize all Variables() 
sess.run (init op) 


# 通过 ema .average (v1) 获取 滑动 平均 之 后 变量 的 取 值 ,在 初始 化 之 后 变量 v1 的 值 和 v1 的 
# 滑动 平均 都 为 0。 
print sess.run([vl ema.average (v1)]) # 输出 [0.0，0.0] 


# 更 新 变量 v1 的 值 到 5。 

sess.run(tf.assign (vl, 5)) 

# 更 新 v1 的 滑动 平均 值 。 衰 减 率 为 min{0.99, (1+step)/(10+step)= 0.1}=0.1, 
# 所 以 v1 的 滑动 平均 会 被 更 新 为 0.1x0+0 .9x5=4.5。 

sess.run(maintain averages op) 

print sess.run([vl, ema.average (v1)]) # 输出 [5.0, .4:5] 


# 更 新 step 的 值 为 10000。 
sess.run(tf.assign(step, 10000)) 
# 更 新 v1 的 值 为 10。 


sess.run(tf.assign (vl, 10)) 

# 更 新 v1 的 滑动 平均 值 。 豪 减 率 为 min{0.99, (l+step)/ (1l0+step) x 0.999}=0.99, 
# 所 以 v1 的 滑动 平均 会 被 更 新 为 0.99x4.5+0.01x10=4.555。 

sess.run (maintain averages op) 

print sess.run([vl, ema.average (v1)]) 

# 输出 [10.0，4.5549998] 


# 再 次 更 新 滑动 平均 值 ， 得 到 的 新 滑动 平均 值 为 0.99x4 .555+0.01x10=4.60945。 
sess.run(maintain averages op) 

print sess.run([vl, ema.average (v1)]) 

# 输出 [10.0，4.6094499] 


上 面 的 代码 给 出 了 ExponentialMovingAverage 的 简单 样 例 ， 在 第 5 章 中 将 给 出 在 真实 
应 用 中 使 用 滑动 平均 的 样 例 。 


小 结 


本 章 详细 讲解 了 使 用 神经 网 络 解决 实际 问题 过 程 中 的 各 个 环节 。 首 先 4.1 节 介绍 了 设 
计 神 经 网 络 结构 时 的 两 个 总 体 原则 一 一 非 线性 结构 和 多 层 结构 。 这 一 节 先 说 明了 深度 学 习 
基本 上 就 是 深层 神经 网 络 的 代名词 。 然 后 通过 对 深度 学 习 定义 中 两 个 性 质 的 详细 讲解 ， 指 
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出 了 非 线 性 结构 和 多 层 结构 是 解决 复杂 问题 的 必要 方法 。 这 一 节 通 过 具体 的 例子 讲解 了 线 
性 模型 和 浅 层 模 型 的 局 限 性 。 

然后 4.2 节 介绍 了 如 何 设计 损失 函数 。 神 经 网 络 是 一 个 优化 问题 ， 而 损失 叉 数 丈 刻 男 
了 神经 网 络 需 要 优化 的 目标 。 这 一 节 讲 解 了 分 类 问题 和 回归 问题 中 比较 常用 的 损失 函数 ， 
同时 也 介绍 了 如 何 设计 更 加 贴近 实际 问题 需求 的 损失 函数 。 在 这 一 节 中 通过 一 个 实际 样 例 
讲解 了 不 同 损 失 函 数 对 神经 网 络 参数 优化 结果 的 影 啊 。 

接着 4.3 节 介 绍 了 优化 神经 网 络 时 最 常用 的 梯度 下 降 算 法 和 反 辐 传播 算法 。 在 这 一 贡 
中 ， 主 要 讲解 了 梯度 下 降 算 法 的 基本 概念 和 主体 思想 ， 并 给 出 了 通过 梯度 下 降 算 法 优化 一 
个 简单 函数 J(x)=x” 的 样 例 。 通 过 这 个 例子 , 读者 可 以 对 神经 网 络 的 优化 过 程 有 一 个 大 概 的 、 
直观 的 了 解 。 这 一 节 还 介绍 了 随机 梯度 下 降 和 使 用 batch 的 随机 梯度 下 降 算 法 ， 并 给 出 了 
使 用 TensorFlow 优化 神经 网 络 的 计算 框架 。 

最 后 4.4 节 介 绍 了 三 个 神经 网 络 优化 过 程 中 可 能 会 遇 到 的 问题 ， 并 介绍 了 解决 这 些 问 
题 的 常用 方法 。 首 先 4.4.1 小 节 介 绍 了 通过 指数 衰减 的 方式 来 设置 学 习 率 。 通 过 这 种 方法 ， 
既 可 以 加 快 训练 初期 的 训练 速度 ， 同 时 在 训练 后 期 又 不 会 出 现 损 失 函 数 在 极 小 值 周 围 徘徊 
往返 的 情况 。 然 后 4.4.2 小 节 介 绍 了 通过 正则 化 解决 过 度 拟 合 的 问题 。 当 损失 函数 仅 取 决 于 
在 训练 数据 上 的 拟 合 程 度 时 ， 神 经 网 络 模 型 有 可 能 只 是 “记忆 ”了 所 有 的 训练 数据 ， 而 无 
法 很 好 地 对 未 知 数据 做 出 判断 。 正 则 化 通过 在 损失 函数 中 加 入 对 模型 复杂 程度 的 因素 ， 可 
以 有 效 避 免 过 拟 合 问题 。 最 后 4.4.3 小 节 介 绍 了 使 用 滑动 平均 模型 让 最 后 得 到 的 模型 在 未 知 
数据 上 更 加 健壮 。 

这 一 章 讲解 了 使 用 神经 网 络 模型 时 需要 考虑 的 主要 问题 。 从 神经 网 络 模型 结构 的 设计 、 
损失 函数 的 设计 、 神 经 网 络 的 优化 和 神经 网 络 进一步 调 优 四 个 方面 覆盖 了 设计 和 优化 神经 
网 络 过 程 中 可 能 遇 到 的 主要 问题 。 在 下 面 的 第 $ 章 中 ， 将 通过 一 个 具体 的 问题 来 验证 本 章 
中 提 到 的 神经 网 络 优化 方法 。 同 时 也 将 给 出 通过 TensorFlow 实现 神经 网 络 的 最 佳 实践 样 例 
”程序 。 
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第 4 章 介 绍 耳 训练 神经 网 络 模 型 时 需要 考虑 的 主要 问题 以 及 解决 这 些 问题 的 常用 方 
法 。 这 一 章 将 通过 一 个 实际 问题 来 验证 第 4 章 中 介绍 的 解决 方法 。 本 章 将 使 用 的 数据 集 是 
MNIST 手写 体 数 字 识 别 数 据 集 。 在 很 多 深度 学 习 教程 中 ， 这 个 数据 集 都 会 被 当 作 第 一 个 案 
例 。 在 验证 神经 网 络 优化 方法 的 同时 ， 本 章 也 会 介绍 使 用 TensorFlow 训练 神经 网 络 的 最 佳 

首先 在 5.1 节 中 将 介绍 MNIST 手写 体 数 字 识 别 数据 集 , 并 且 给 出 TensorFlow 程序 处 理 
MNIST 数 据 "。 然 后 5.2 节 将 对 比 第 4 章 中 提 到 的 神经 网 络 结构 设计 和 参数 优化 的 不 同方 法 ， 
从 实际 的 问题 中 验证 不 同 优化 方法 带 来 的 性 能 提升 。 接 着 在 5.3 和 5.4 两 节 中 将 指出 5.2 节 
中 TensorFlow 程序 实现 神经 网 络 的 不 足 之 处 , 并 介绍 TensorFlow 的 最 佳 实践 来 解决 这 些 不 
足 。 其 中 ，5.3 节 将 介绍 TensorFlow 变量 重用 的 问题 和 变量 的 命名 空间 ; 5.4 市 将 介绍 如 何 
将 一 个 神经 网 络 模型 持久 化 ， 使 得 之 后 可 以 直接 使 用 训练 好 的 模型 。 最 后 在 5.5 节 中 将 整 
合 5.3 和 5.4 节 中 介绍 的 TensorFlow 最 佳 实践 ,通过 一 个 完整 的 TensorFlow 程序 解决 MNIST 
问题 。 


5.1 MNIST 数据 处 理 


MNIST 是 一 个 非常 有 名 的 手写 体 数字 识别 数据 集 ， 在 很 多 资料 中 ， 这 个 数据 集 都 会 被 
用 作 深 度 学 习 的 入 门 样 例 。 本 节 中 将 大 致 讲解 这 个 数据 集 的 基本 情况 ， 并 介绍 TensorFlow 
对 MNIST 数据 集 做 的 封装 。TensorFlow 的 封装 让 使 用 MNIST 数据 集 变 得 更 加 方便 .MNIST 
数据 集 是 NIST 数据 集 的 一 个 子 集 ， 它 包含 了 60000 张 图 片 作 为 训练 数据 ，10000 张 图 片 作 


(D TensorFlow 提供 了 封装 好 的 MNIST 数据 集 处 理 类 , 在 这 里 将 直接 使 用 这 个 类 。 关 于 如 何 处 理 图 像 数 据 
将 在 第 7 章 中 详细 介绍 。 
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为 测试 数据 。 在 MNIST 数据 集中 的 每 一 张 图 片 都 代表 了 0-9 中 的 一 个 数字 。 图 片 的 大 小 都 
为 28x28, 且 数 字 都 会 出 现在 图 片 的 正中 间 。 图 5-1 展示 了 一 张 数 字 图 片 及 和 它 对 应 的 像素 
矩阵 。 
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Db 面 | ,| 0 i 加 陪 1 @ 1 U 

1B 心 .AR1 协 il 加 可 & hh or JW 人 

Wi BS vw 8 n BD 人 1 
Wo 1 0 fi I , Mm yw 

由 U 1 0 Uv 人 , D 0 i 1 0 有 0 


5-1 数字 图 片 及 其 像素 矩阵 


在 图 5-1 的 左 侧 显示 了 一 张 数字 1 的 图 片 , 而 右 侧 显 示 了 这 个 图 片 所 对 应 的 像素 矩阵 ”。 
在 Yann LeCun 教授 的 网 站 中 (http://yann.lecun.com/exdb/mnist) 对 MNIST 数据 集 做 出 了 详 
细 的 介绍 。MNIST 数据 集 提 供 了 4 个 下 载 文 件 ， 表 5-1 归纳 了 下 载 文件 中 提供 的 内 容 。 


表 5-1 MNIST 数据 下 载 地 址 和 内 容 


虽然 这 个 数据 集 只 提供 了 训练 和 测试 数据 ， 但 是 为 了 验证 模型 训练 的 效果 ， 一 般 会 从 
训练 数据 中 划分 出 一 部 分 数据 作为 验证 (validation) 数据 。 在 5.2.2 小 节 中 将 更 加 详细 地 介 
绍 验 证 数据 的 作用 。 为 了 方便 使 用 ，TensorFlow 提供 了 一 个 类 来 处 理 MNIST 数据 。 这 个 类 
会 自动 下 载 并 转化 MNIST 数据 的 格式 , 将 数据 从 原始 的 数据 包 中 解析 成 训练 和 测试 神经 网 
络 时 使 用 的 格式 。 下 面 给 出 了 使 用 这 个 函数 的 样 例 程序 。 













QD MNIST 数据 集中 图 片 的 像素 矩阵 大 小 为 28x28， 但 为 了 更 清楚 地 展示 , 图 5-1 右 侧 显 示 的 为 14X14 拢 
阵 ， 
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from tensorflow.examples.tutorials,.mnist import input data 


# 载 入 MNIST 数据 集 ， 如 果 指 定 地 址 /path/to/MNIST_data 下 没有 已 经 下 载 好 的 数据 ， 
# 那么 TensorFlow 会 自动 从 表 5-1 给 出 的 网 址 下 载 数据 。 
mnist = input data.read data sets("/path/to/MNIST data/", one hot=True) 


# 打印 Training data size: 55000。 
print "Training data size: ", mnist.train.num examples 


# 打印 Validating data size: 5000。 
print "Validating data size: ", mnist.validation.num examples 


# 打印 Testing data size: 10000。 
print "Testing data size: ", mist.test.num examples 


下 中 END Za dataa [LV Deda DID 02 520 ,00 
print "Example training data: ", mnist.train.images[0] 


# 打印 Example training data label: 
I EA Wad 
print "Example training data label: ", mnist.train.labels[0] 


从 上 面 的 代码 中 可 以 看 出 ， 通 过 input data.read data sets 函数 生成 的 类 会 自动 将 
MNIST 数据 集 划 分 为 train、validation 和 test 三 个 数据 集 ， 其 中 train 这 个 集合 内 有 55000 
张 图 片 ，validation 集合 内 有 5000 张 图 片 ， 这 两 个 集合 组 成 了 MNIST 本 身 提供 的 训练 数据 
集 。test 集合 内 有 10000 张 图 片 ， 这 些 图 片 都 来 自 于 MNIST 提供 的 测试 数据 集 。 处 理 后 的 
每 一 张 图 片 是 一 个 长 度 为 784 的 一 维 数组 ， 这 个 数组 中 的 元 素 对 应 了 图 片 像 素 矩 阵 中 的 每 
一 个 数字 〈28x28=784)。 因 为 神经 网 络 的 输入 是 一 个 特征 向 量 ， 所 以 在 此 把 一 张 二 维 图 像 
的 像素 矩阵 放 到 一 个 一 维 数组 中 可 以 方便 TensorFlow 将 图 片 的 像素 矩阵 提供 给 神经 网 络 的 
输入 层 。 像 素 矩 阵 中 元 素 的 取 值 范围 为 [0, 1]， 它 代表 了 颜色 的 深浅 。 其 中 0 表示 白色 背景 
(background )，1 表示 黑色 前 景 (foreground )。 为 了 方便 使 用 随机 梯度 下 降 ， 
input data.read data_sets 函数 生成 的 类 还 提供 了 mnist.train.next batch 函数 ， 它 可 以 从 所 有 
的 训练 数据 中 读 取 一 小 部 分 作为 一 个 训练 batch。 以 下 代码 显示 了 如 何 使 用 这 个 功能 。 


batch size = 100 

xs, ys = mist.train.next batch(batch size) 
# 从 train 的 集合 中 选取 batch_size 个 训练 数据 。 

print "Xx shape:", xs.shape 

# 输出 X shape: (100，784)。 

print "Y shape:", ysS.shape 

# 输出 Y shape: (100，10)。 
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5.2 ”神经 网 络 模型 训练 及 不 同 模型 结果 对 比 


本 节 将 利用 MNIST 数据 集 实 现 并 研究 第 4 章 中 介绍 的 神经 网 络 模型 设计 及 优化 的 方 
法 。 首先 ， 在 5.2.1 小 节 中 将 给 出 一 个 完整 的 TensorFlow 程序 来 解决 MNIST 问题 。 这 个 程 
序 整合 了 第 4 章 中 介绍 的 所 有 优化 方法 , 训练 好 的 神经 网 络 模型 在 MNIST 测试 数据 集 上 可 
以 达到 98.4% 左 右 的 正确 率 。 然 后 5.2.2 小 节 将 介绍 验证 数据 集 在 训练 神经 网 络 过 程 中 的 作 
用 。 这 一 小 节 将 通过 5.2.1 小 节 中 得 到 的 实验 数据 来 证 明 ,， 神经 网 络 在 验证 数据 集 上 的 表现 
可 以 近似 地 作为 评价 不 同 神经 网 络 模型 的 标准 或 者 决定 迭代 轮 数 的 依据 。 最 后 5.2.3 小 节 将 
通过 MNIST 数据 集 验 证 第 4 章 中 介绍 的 每 一 个 优化 方法 。 通 过 在 MNIST 数据 集 上 的 实验 
可 以 看 到 ， 这 些 优化 方法 都 可 以 或 多 或 少 地 提高 神经 网 络 的 分 类 正确 率 。 


5.2.1 TensorFlow 训练 神经 网 络 


这 一 小 节 将 给 出 一 个 完整 的 TensorFlow 程序 来 解决 MNIST 手写 体 数字 识别 问题 。 这 
一 小 节 中 给 出 的 程序 实现 了 第 4 章 中 介绍 的 神经 网 络 结构 设计 和 训练 优化 的 所 有 方法 。 在 
给 出 具体 的 代码 之 前 ， 先 回顾 一 下 第 4 章 中 提 到 的 主要 概念 。 在 神经 网 络 的 结构 上 ， 深 度 
学 习 一 方面 需要 使 用 激活 函数 实现 神经 网 络 模型 的 去 线性 化 ， 另 一 方面 需要 使 用 一 个 或 多 
个 隐藏 层 使 得 神经 网 络 的 结构 更 深 ， 以 解决 复杂 问题 。 在 训练 神经 网 络 时 ， 第 4 章 介 绍 了 
使 用 带 指数 衰减 的 学 习 率 设置 、 使 用 正则 化 来 避免 过 度 拟 合 ， 以 及 使 用 滑动 平均 模型 来 使 
得 最 终 模 型 更 加 健壮 。 以 下 代码 给 出 了 一 个 在 MNIST 数据 集 上 实现 这 些 功能 的 完整 的 
TensorFlow 程序 。 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


# MNIST 数据 集 相关 的 常数 。 


INPUT NODE = 784 # 输入 层 的 节点 数 。 对 于 MNIST 数据 集 , 这 个 就 等 于 图 片 的 像素 。 
OUTPUT NODE = 10 # 输出 层 的 节点 数 。 这 个 等 于 类 别 的 数目 。 因 为 在 MNIST 数据 集中 


# 需要 区 分 的 是 0~9 这 10 个 数字 ,所 以 这 里 输出 层 的 节点 数 为 10。 
# 配置 神经 网 络 的 参数 。 


LAYER1 NODE = 500 # 隐藏 层 节点 数 。 这 里 使 用 只 有 一 个 隐藏 层 的 网 络 结 构 作 为 样 例 。 
# 这 个 隐藏 层 有 500 个 节点 。 

BATCH SIZE = 100 # 一 个 训练 batch 中 的 训练 数据 个 数 。 数 字 越 小 时 ， 训 练 过 程 越 接近 
# 随机 梯度 下 降 ; 数字 越 大 时 ， 训 练 越 接近 梯度 下 降 。 

LEARNING RATE BASE = 0.8 # 基础 的 学 习 率 。 

LEARNING RATE DECRY = 0.99 # 学 习 率 的 衰减 率 。 
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REGULARIZATION RATE = 0.0001 # 描述 模型 复杂 度 的 正则 化 项 在 损失 函数 中 的 系数 。 
TRAINING STEPS = 30000 # 训练 轮 数 。 
MOVING AVERAGE DECAY = 0.99 # 滑动 平均 衰减 率 。 


# 一 个 辅助 函数 ， 给 定神 经 网 络 的 输入 和 所 有 参数 ， 计 算 神 经 网 络 的 前 向 传播 结果 。 在 这 里 
# 定义 了 一 个 使 用 ReLU 激活 函数 的 三 层 全 连接 神经 网 络 。 通 过 加 入 隐藏 层 实现 了 多 层 网 络 结构 ， 
# 通过 ReLU 激活 函数 实现 了 去 线性 化 。 在 这 个 函数 中 也 支持 传 入 用 于 计算 参数 平均 值 的 类 ， 
# 这 样 方便 在 测试 时 使 用 滑动 平均 模型 。 
def inference(input tensor, avg class; weightsl, biasesl, 
weights2, biases2): 
# 当 没 有 提供 滑动 平均 类 时 ， 直 接 使 用 参数 当前 的 取 值 。 
if avg Class == None: 
# 计算 隐藏 层 的 前 加 传播 结果 ， 这 里 使 用 了 ReLU 激活 函数 。 


Layerl = tf.nn.relu(tf.matmul (input tensor，WwWelghtsl) + biasesl) 


# 计算 输出 层 的 前 向 传播 结果 。 因 为 在 计算 损失 函数 时 会 一 并 计算 softmax 函数 ， 

# 所 以 这 里 不 需要 加 入 激活 函数 。 而 且 不 加 入 softmax 不 会 影响 预测 结果 。 因 为 预测 时 
# 使 用 的 是 不 同类 别 对 应 节点 输出 值 的 相对 大 小 ， 有 没有 softmax 层 对 最 后 分 类 结果 的 
# 计算 没有 影响 。 于 是 在 计算 整个 神经 网 络 的 前 向 传播 时 可 以 不 加 入 最 后 的 softmax 层 。 


return tf.matmul (layerl, weights2) + biases2 


else: 

# 首先 使 用 avg class.average 函数 来 计算 得 出 变量 的 滑动 平均 值 ， 

# 然后 再 计算 相应 的 神经 网 络 前 疝 传播 结果 。 

layerl1 = tf.nn.relul 
tf.matmul (input tensor, avg class.average (weights1)) + 
avg class.average (biases1)) 

return tf.matmul (layerl, avg class.average (weights2)) + 

avg class. average (biases2) 


# 训练 模型 的 过 程 。 

def train (mnist): 
x = tf.placeholder (tf.float32, [None, INPUT NODE], name='x-input') 
y_ = tf.placeholder (tf.float32, [None, OUTPUT NODE], name='y-input'’) 


# 生成 隐藏 层 的 参数 。 
weightsl1 = 廿 E.Variable 

tf.truncated normal ([INPUT_NODE， LAYER1_NODE]， stddev=0.1)) 
biasesl = tf.Variable(tf.constant (0.1， shape=[LAYER]1 NODE])) 
# 生成 输出 层 的 参数 。 
weights2 = tf.Variablel 

tf.truncated normal ([LAYER]1 NODE, OUTPUT NODE], stddev=0.1)) 
biases2 = tf.Variable(tf.constant(0.1, shape=[OUTPUT NODE])) 


# 计算 在 当前 参数 下 神经 网 络 前 向 传播 的 结果 。 这 里 给 出 的 用 于 计算 滑动 平均 的 类 为 None， 
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# 所 以 函数 不 会 使 用 参数 的 请 动 平 均值 。 


Y = inference(x, None, weightsl, biasesl, weights2z, biases2) 


# 定义 存储 训练 轮 数 的 变量 。 这 个 变量 不 需要 计算 滑动 平均 值 ， 所 以 这 里 指定 这 个 变量 为 
# 不 可 训练 的 变量 (trainable=Fasle)。 在 使 用 TensorFlow 训练 神经 网 络 时 ， 

# 一 般 会 将 代表 训练 轮 数 的 变量 指定 为 不 可 训练 的 参数 。 

global step = tf.Variable(0, trainable=False) 


# 给 定 滑 动 平均 衰减 率 和 训练 轮 数 的 变量 ， 初 始 化 滑动 平均 类 。 在 第 4 章 中 介绍 过 给 
# 定 训练 轮 数 的 变量 可 以 加 快 训练 早期 变量 的 更 新 速度 。 
variable averages = tf.train.ExponentialMovingAverage!( 

MOVING AVERAGE DECAY, global step) 


# 在 所 有 代表 神经 网 络 参数 的 变量 上 使 用 滑动 平均 。 其 他 辅助 变量 (比如 global step) 就 
# 不 需要 了 。 tf.trainable variables 返回 的 就 是 图 上 集合 
# GraphKeys .TRAINABLE VARIABLES 中 的 元 素 。 这 个 集合 的 元 素 就 是 所 有 没有 指定 
# trainable=False 的 参数 。 
variables averages op = variable averages.apply l\ 
tf.trainable variables ()) 


# 计算 使 用 了 滑动 平均 之 后 的 前 向 传播 结果 。 第 4 章 中 介绍 过 滑动 平均 不 会 改变 变量 本 身 的 
# 取 值 ， 而 是 会 维护 一 个 影子 变量 来 记录 其 滑动 平均 值 。 所 以 当 需 要 使 用 这 个 滑动 平均 值 时 ， 
# 需要 明确 调用 average 函数 。 
average Y = Inference ( 

x, Variable averages, weightsl, biasesl, weights2, biases2) 


# 计算 交叉 烂 作为 刻画 预测 值 和 真实 值 之 间 差 距 的 损失 函数 。 这 里 使 用 了 TensorFlow 中 提 
# 供 的 sparse softmax cross entropy with logits 函数 来 计算 交叉 烂 。 当 分 类 
# 问题 只 有 一 个 正确 答案 时 ， 可 以 使 用 这 个 函数 来 加 速 交叉 入 的 计算 。MNIST 问题 的 图 片 中 
# 只 包含 了 0~9 中 的 一 个 数字 ， 所 以 可 以 使 用 这 个 函数 来 计算 交叉 科 损失 。 这 个 函数 的 第 一 个 
# 参数 是 神经 网 络 不 包括 softmax 层 的 前 向 传播 结果 ， 第 二 个 是 训练 数据 的 正确 答案 。 因 为 
# 标准 答案 是 一 个 长 度 为 10 的 一 维 数组 ， 而 该 函数 需要 提供 的 是 一 个 正确 答案 的 数字 , 所 以 需 
# 要 使 用 tf.argmax 函数 来 得 到 正确 答案 对 应 的 类 别 编号 。 
cross entropy = tf.nn.sparse softmax cross entropy with logits'( 

Y tf.argmax(y , 1)) - 
# 计算 在 当前 batch 中 所 有 样 例 的 交叉 炉 平 均值 。 


cross entropy mean = tf.reduce meanl(cross entropy) 


# 计算 L2 正则 化 损失 函数 。 

regularizer = tf.contrib.layers.12 regularizer (REGULARIZATION RATE) 
# 计算 模型 的 正则 化 损失 。 一 般 只 计算 神经 网 络 边 上 权重 的 正则 化 损失 ， 而 不 使 用 偏 置 项 。 
regularization = regularizer (weightsl1l) + regularizer (weights2) 

# 总 损失 等 于 交叉 烂 损失 和 正则 化 损失 的 和 。 


loss = cross entropy mean + regularaztion 


# 设置 指数 衰减 的 学 习 率 。 
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learning rate = tf.train.exponential decay ( 
LEARNING RATE BASE, # 基础 的 学 习 率 ， 随 着 迭代 的 进行 ， 更 新 变量 时 使 用 的 
# 学 习 率 在 这 个 基础 上 递减 。 
global step, # 当前 迭代 的 轮 数 
mnist.train.num examples / BATCH SIZE, # 过 完 所 有 的 训练 数据 需要 的 从 
# 代 次 数 。 
LEARNING RATE DECAY) # 学 习 率 衰减 速度 


# 使 用 tf.train.GradientDescentOptimizer 优化 算法 来 优化 损失 函数 。 注 意 这 里 损失 函数 

# 包含 了 交叉 烂 损 失 和 工 2 正则 化 损失 ， 

train step=tf.train.GradientDescentOptimizer (learning rate)\ 
.minimize(loss, global step=global step) 


# 在 训练 神经 网 络 模型 时 ， 每 过 一 遍 数 据 既 需要 通过 反 向 传播 来 更 新 神经 网 络 中 的 参数 ， 

# 又 要 更 新 每 一 个 参数 的 滑动 平均 值 。 为 了 一 次 完成 多 个 操作 ，TensorFlow 提供 了 

# tf.control dependencies 和 tf.group 两 种 机 制 。 下 面 两 行程 序 和 

# train op = tf.group (train step, variables _ averages_op) 是 等 价 的 。 

with tf.control dependencies([train step, variables averages op]) : 
train op = tf.no opl(name='train') 


# 检验 使 用 了 滑动 平均 模型 的 神经 网 络 前 向 传播 结果 是 否 正 确 。tf.argmax (average y,， 1) 

# 计算 每 一 个 样 例 的 预测 答案 。 其 中 average y 是 一 个 batch size * 10 的 二 维 数组 ， 每 一 行 
# 表示 一 个 样 例 的 前 向 传播 结果 。tf .argmax 的 第 二 个 参数 “1” 表 示 选 取 最 大 值 的 操作 仅 在 第 一 
# 个 维度 中 进行 ， 也 就 是 说 ， 只 在 每 一 行 选取 最 大 值 对 应 的 下 标 。 于 是 得 到 的 结果 是 一 个 长 度 为 

# batch 的 一 维 数组 ， 这 个 一 维 数组 中 的 值 就 表示 了 每 一 个 样 例 对 应 的 数字 识别 结果 。tf.equal 
# 判断 两 个 张 量 的 每 一 维 是 否 相 等 ， 如 果 相 等 返回 True， 否 则 返回 False。 
correct _ Prediction = tf.equal (tf.argmax (average y, 1), tf.argmax(y ;1)) 
# 这 个 运算 首先 将 一 个 布尔 型 的 数值 转换 为 实数 型 ， 然 后 计算 平均 值 。 这 个 平均 值 就 是 模型 在 这 

# 一 组 数据 上 的 正确 率 。 


accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


# 初始 化 会 话 并 开始 训练 过 程 。 
with tf.Session() as sess: 
tf.initialize all variables() :zun() 
# 准备 验证 数据 。 一 般 在 神经 网 络 的 训练 过 程 中 会 通过 验证 数据 来 大 致 判断 停止 的 
# 条 件 和 评判 训练 的 效果 。 
validate feed = {x: mnist.validation.images, 
y_: mnist.validation. labels) 


# 准备 测试 数据 。 在 真实 的 应 用 中 ， 这 部 分 数据 在 训练 时 是 不 可 见 的 ， 这 个 数据 只 是 作为 模 
# 型 优 劣 的 最 后 评价 标准 。 


test feed = {x: mnist.test.images, y : mnist.test.labels) 


# 夫 代 地 训练 神经 网 络 。 
for i In range (TRAINING_STEPS) : 
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地 


# 每 1000 轮 输出 一 次 在 验证 数据 集 上 的 测试 结果 。 

if i 和 1000 == 0: 

# 计算 滑动 平均 模型 在 验证 数据 上 的 结果 。 因 为 MNIST 数据 集 比 较 小 ， 所 以 一 次 

# 可 以 处 理 所 有 的 验证 数据 。 为 了 计算 方便 ， 本 样 例 程序 没有 将 验证 数据 划分 为 更 

# 小 的 batch。 当 神经 网 络 模 型 比较 复杂 或 者 验证 数据 比较 大 时 ， 太 大 的 batch 

# 会 导致 计算 时 间 过 长 甚至 发 生 内 存 洲 出 的 错误 。 
validate acc = sess.run(accuracy, feed dict=validate feed) 
print ("After %d training step(s), validation accuracy " 

"using average model is %g " 名 (i, validate acc)) 


# 产生 这 一 轮 使 用 的 一 个 batch 的 训练 数据 ， 并 运行 训练 过 程 。 
xs, ys = mnist.train.next batch (BATCH SIZE) 
sess ,zun (tralin op, feed dict={x: xs, y : ys}) 


# 在 训练 结束 之 后 ， 在 测试 数据 上 检测 神经 网 络 模型 的 最 终 正确 率 。 

test acc = sess.run(accuracy, feed dict=test feed) 

print ("After sq training step(s), test accuracy using average " 
"model] is %g" % (TRAINING STEPS, test acc)) 


# 主 程序 入 口 。 

def main (argv=None): 
# 声明 处 理 MNIST 数据 集 的 类 ， 这 个 类 在 初始 化 时 会 自动 下 载 数据 。 
mnist = input data.read data sets("/tmp/data", one hot=True) 
train (mnist) 


# TensorFlow 提供 的 一 个 主 程序 入 口 ，tf.app.run 会 调用 上 面 定义 的 main 函数 。 
if” name == " main '; 
tf.app.run'() 


运行 上 面 的 程序 ， 将 得 到 类 似 下 面 的 输出 结果 ”: 


Extracting /tmp/data/train-images-idx3-ubyte.gz 

Extracting /tmp/data/train-labels-idxl-ubyte.gz 

Extracting /tmp/data/tl0k-images-idx3-ubyte.gz 

Extracting /tmp/data/tl0k-labels-idxl-ubyte.gz . 

After 0 training step(s), validation accuracy on average model is 0.105 
After 1000 training step(s), validation accuracy using average model is 0.9774 
After 2000 training step(s), validation accuracy using average model is 0.9816 
After 3000 training step(s), validationaccuracy using average model is 0.9834 
After 4000 training step(s), validation accuracy using average model is 0.9832 


After 27000 training step(s), validationaccuracy using average model is 0.984 


QD 因为 神经 网 络 模型 训练 过 程 中 的 随机 因素 ， 读 者 不 会 得 到 一 模 一 样 的 结果 。 
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After 28000 training step(s), validation accuracy using average model is 0.985 
After 29000 training step(s), validation accuracy using average model is 0.985 
After 29999 training step(s), validation accuracy using average model is 0.985 
After 30000 training step(s), test accuracy on average model is 0.984 


从 上 面 的 结果 可 以 看 出 ， 在 训练 初期 ， 随 着 训练 的 进行 ， 模 型 在 验证 数据 集 上 的 表现 
越 来 越 好 。 从 第 4000 轮 开始 ， 模 型 在 验证 数据 集 上 的 表现 开始 波动 ， 这 说 明 模型 已 经 接近 
极 小 值 了 ， 所 以 运 代 也 就 可 以 结束 了 。 下 面 的 5.2.2 小 节 将 详细 介绍 验证 数据 集 的 作用 。 


5.2.2 ”使 用 验证 数据 集 判断 模型 效果 


在 5.2.1 小 节 给 出 了 使 用 神经 网 络 解决 MNIST 问题 的 完整 程序 。 在 这 个 程序 的 开始 设 
置 了 初始 学 习 率 、 学 习 率 衰减 率 、 隐 藏 层 节点 数量 、 友 代 轮 数 等 7 种 不 同 的 参数 。 那 么 如 
何 设 置 这 些 参数 的 取 值 呢 ? 在 大 部 分 情况 下 ,配置 神 经 网 络 的 这 些 参 数 都 是 需要 通过 实验 
来 调整 的 。 虽 然 一 个 神经 网 络 模型 的 效果 最 终 是 通过 测试 数据 来 评判 的 ， 但 是 我 们 不 能 直 
接 通 过 模型 在 测试 数据 上 的 效果 来 选择 参数 。 使 用 测试 数据 来 选取 参数 可 能 会 导致 神经 网 
络 模 型 过 度 拟 合 测试 数据 ， 从 而 失去 对 未 知 数 据 的 预 判 能 力 。 因 为 一 个 神经 网 络 模型 的 最 
终 目 标 是 对 未 知 数据 提供 判断 ， 所 以 为 了 估计 模型 在 未 知 数据 上 的 效果 ， 需 要 保证 测试 数 
据 在 训练 过 程 中 是 不 可 见 的 。 只 有 这 样 才 能 保证 通过 测试 数据 评估 出 来 的 效果 和 在 真实 应 
用 场景 下 模型 对 未 知 数据 预 判 的 效果 是 接近 的 。 于 是 ， 为 了 评测 神经 网 络 模 型 在 不 同 参 数 
下 的 效果 ， 一般 会 从 训练 数据 中 抽取 一 部 分 作为 验证 数据 。 使 用 验证 数据 就 可 以 评判 不 同 
参数 取 值 下 模型 的 表现 。 除 了 使 用 验证 数据 集 ， 还 可 以 采用 交叉 验证 《cross Validation) 的 
方式 来 验证 模型 效果 。 但 因为 神经 网 络 训练 时 间 本 身 就 比较 长 ， 采 用 cross validation 会 花 
费 大 量 时 间 。 所 以 在 海量 数据 的 情况 下 ， 一 般 会 更 多 地 采用 验证 数据 集 的 形式 来 评测 模型 
的 效果 。 

在 本 小 节 中 ， 为 了 说 明 验证 数据 在 一 定 程 度 上 可 以 作为 模型 效果 的 评判 标准 ， 我 们 将 
对 比 在 不 同 迭 代 轮 数 的 情况 下 ， 模 型 在 验证 数据 和 测试 数据 上 的 正确 率 。 为 了 同时 得 到 同 
一 个 模型 在 验证 数据 和 测试 数据 上 的 正确 率 , 可 以 在 每 1000 轮 的 输出 中 加 入 在 测试 数据 集 
上 的 正确 率 。 在 5.2.1 小 节 给 出 的 代码 中 加 入 以 下 代码 ， 就 可 以 得 到 每 1000 轮 迭 代 后 ， 使 
用 了 滑动 平均 的 模型 在 验证 数据 和 测试 数据 上 的 正确 率 。 

# 计算 滑动 平均 模型 在 测试 数据 和 验证 数据 上 的 正确 率 。 


validate acc = sess,.runl(laccuracy, teed dict=validate feed) 
test acc = sess.runlaccuracy; feed dict=test feed) 
# 输出 正确 率 信 息 。 
print ("After ®%d training step(s), validation accuracy using average " 
"model is SG test accuracy using average model is 多 gq" S$ 
(i, validate acc; test acc)) 
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图 5-2 给 出 了 通过 上 面 代码 得 到 的 每 1000 轮滑 动 平 均 模型 在 不 同 数据 集 上 的 正确 率 曲 
线 。 图 5-2 中 灰色 的 曲线 表示 随 着 迭代 轮 数 的 增加 ， 模 型 在 验证 数据 上 的 正确 率 ; 而 黑色 
的 曲线 表示 了 在 测试 数据 上 的 正确 率 。 从 图 5-2 中 可 以 看 出 ， 虽 然 这 两 条 曲线 不 会 完全 重 
合 ， 但 是 这 两 条 曲线 的 趋势 基本 一 样 ， 而 且 他 们 的 相关 系数 〈correlation coefficient) 大 于 
0.9999。 这 意味 着 在 MNIST 问题 上 ， 完 全 可 以 通过 模型 在 验证 数据 上 的 表现 来 判断 一 个 模 
型 的 优 劣 。 





正确 素 





] 
| 
| 
| 


| 一 一 验证 数据 集 上 正确 素 
0.976 


一 一 测试 数据 集 上 正确 这 
D.974 


SS 
和 迭代 轮 数 
图 5-2 ”不同 运 代 轮 数 下 滑动 平均 模型 在 验证 数据 集 和 测试 数据 集 上 的 正确 率 





当然 ， 以 上 结论 是 针对 MNIST 这 个 数据 集 的 ， 对 于 其 他 问题 ， 还 需要 具体 问题 县 体 分 
析 。 不 同 问题 的 数据 分 布 不 一 样 ， 如 果 验 证 数据 分 布 不 能 很 好 地 代表 测试 数据 分 布 ， 那 么 
模型 在 这 两 个 数据 集 上 的 表现 就 有 可 能 不 一 样 。 所 以 , 验证 数据 的 选取 方法 是 非常 重要 的 ， 
一 般 来 说 选取 的 验证 数据 分 布 越 接近 测试 数据 分 布 ， 模 型 在 验证 数据 上 的 表现 越 可 以 体现 
模型 在 测试 数据 上 的 表现 。 但 通过 本 小 节 中 介绍 的 实验 ， 至 少 可 以 说 明 通 过 神经 网 络 在 验 
证 数据 上 的 效果 来 选取 模型 的 参数 是 一 个 可 行 的 方案 。 


5.2.3 不 同 模型 效果 比较 


本 小 节 将 通过 MNIST 数 据 集 来 比较 第 4 章 中 提 到 的 不 同 优化 方法 对 神经 网 络 模型 正确 
率 的 影响 。 本 小 节 将 使 用 神经 网 络 模型 在 MNIST 测试 数据 集 上 的 正确 率 作为 评价 不 同 优化 
方法 的 标准 。 在 本 小 节 中 一 个 模型 在 MNIST 测试 数据 集 上 的 正确 率 将 简称 为 “正确 率 ”。 
在 第 4 章 中 提 到 了 设计 神经 网 络 时 的 5 种 优化 方法 。 在 神经 网 络 结构 的 设计 上 ， 和 需要 使 用 
激活 函数 和 多 层 隐 藏 层 。 在 神经 网 络 优化 时 ， 可 以 使 用 指数 衰减 的 学 习 率 、 加 入 正则 化 的 
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损失 函数 以 及 滑动 平均 模型 。 在 图 5-3 中 ， 给 出 了 在 相同 神经 网 络 参 数 下 "， 使 用 不 同 优化 
方法 ， 经 过 30000 轮训 练 迭 代 后 ， 得 到 的 最 终 模型 的 正确 率 "。 图 5-3 给 出 的 结果 中 包含 了 
使 用 所 有 优化 方法 训练 得 到 的 模型 和 不 用 其 中 某 一 项 优化 方法 训练 得 到 的 模型 。 通 过 这 种 
方式 ， 可 以 有 效 验 证 每 一 项 优化 方法 的 效果 。 


fo 
O3841 0.9839 D9831 已 953 和 


| | | 时 [区 


| 使 用 所 有 优化 不 用 滑动 平均 。 ” 不 用 正则 化 不 用 滑动 平均 不 用 正则 化 。 ”不 同 指数 付 不 学 习 剖 El 不 用 汶 活 可 数 


5-3 ”不同 模 型 的 正确 率 


D3 


va 


D56 


有 了 


正 而 村 








从 图 5-3 中 可 以 很 明显 地 看 出 , 调整 神经 网 络 的 结构 对 最 终 的 正确 率 有 非常 大 的 影响 。 
没有 隐藏 层 或 者 没有 激活 函数 时 ， 模 型 的 正确 率 只 有 大 约 92.6%， 这 个 数字 要 远 远 小 于 使 
用 了 隐藏 屋 和 激活 函数 时 可 以 达到 的 大 约 98.4% 的 正确 率 。 这 说 明神 经 网 络 的 结构 对 最 终 
模型 的 效果 有 本 质 性 的 影响 。 第 6 章 将 会 介绍 一 种 更 加 特殊 的 神经 网 络 结构 一 一 卷 积 神经 
网 络 。 卷 积 神经 网 络 可 以 更 加 有 效 地 处 理 图 像 信息 。 通 过 卷 积 神经 网 络 ， 可 以 进一步 将 正 
确 率 提高 到 大 约 99.5%。 

从 图 5-3 上 的 数字 中 可 发 现 使 用 滑动 平均 模型 、 指 数 衰减 的 学 习 率 和 使 用 正则 化 带 来 
的 正确 率 的 提升 并 不 是 特别 明显 。 其 中 使 用 了 所 有 优化 算法 的 模型 和 不 使 用 宰 动 平均 的 模 
型 以 及 不 使 用 指数 衰减 的 学 习 率 的 模型 都 可 以 达到 大 约 98.4% 的 正确 率 。 这 是 因为 滑动 平 
均 模 型 和 指数 衰减 的 学 习 率 在 一 定 程度 上 都 是 限制 神经 网 络 中 参数 更 新 的 速度 ， 然 而 在 
MNIST 数据 上 ， 因 为 模型 收敛 的 速度 很 快 ， 所 以 这 两 种 优化 对 最 终 模型 的 影响 不 大 。 从 
图 5-2 中 可 以 看 到 ， 当 模型 迭代 到 4000 轮 时 正确 率 就 已 经 接近 最 终 的 正确 率 了 。 而 在 友 代 


中 在 本 小 节 中 ， 不 同 神经 网 络 模 型 使 用 的 参数 和 5.2.1 小 节 给 出 的 代码 中 的 参数 一 致 。 唯一 的 例外 是 不 使 
用 激活 函数 的 模型 使 用 的 学 习 率 为 0.05。 
@ 因为 神经 网 络 的 训练 过 程 存在 随机 因素 ， 本 小 节 中 列 出 的 所 有 结果 都 是 10 次 运行 的 平均 值 。 
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的 早期 ,是 否 使 用 滑动 平均 模型 或 者 指数 衰减 的 学 习 率 对 训练 结果 的 影响 相对 较 小 。 图 5-4 
显示 了 不 同 选 代 轮 数 时 ， 使 用 了 所 有 优化 方法 的 模型 的 正确 率 与 平均 绝对 梯度 的 变化 趋 
势 。 图 5-5 显示 了 不 同 迭 代 轮 数 时 ， 正 确 率 与 衰减 之 后 的 学 习 率 的 变化 趋势 。 


0.00091 
0.00081 
0.00071 
0.00061 
0.00051 
0.00041 
一 一 正确 率 0.00031 


一 一 平均 绝对 挑 度 0.00021 
0.00011 


平均 绝对 梯度 


0.00001 
S 寺 : 注 沙 只 CE 
达 代 轮 数 


多 
友 代 轮 数 
5-5 使 用 了 所 有 优化 方法 的 模型 的 正确 率 与 学 习 率 在 不 同 迭 代 轮 数 时 的 变化 趋势 





从 图 5-4 中 可 以 看 到 ， 前 4000 轮 和 迭代 对 模型 的 改变 是 最 大 的 。 在 4000 轮 之 后 ， 因 为 
梯度 本 身 比 较 小 ， 所 以 参数 的 改变 也 就 比较 缓慢 了 。 于 是 滑动 平均 模型 或 者 指数 衰减 的 学 


也 平均 绝对 梯度 是 所 有 参数 梯度 绝对 值 的 平均 数 。 
104 | 


ww alibbt.com [DODODODODOODOD 





第 5 章 MNIST 数字 识别 问题 


习 率 的 作用 也 就 没有 那么 突出 了 。 从 图 5-5 中 可 以 看 到 ， 学 习 率 曲线 呈现 出 阶梯 状 衰减 ， 
在 前 4000 轮 时 ， 衰减 之 后 的 学 习 率 和 最 初 的 学 习 率 差距 并 不 大 。 那 么 ,这 是 否 能 说 明 这 些 
优化 方法 作用 不 大 昵 ? 答 案 是 否定 的 。 当 问题 更 加 复杂 时 ， 迹 代 不 会 这 么 快 接近 收敛 ， 这 
时 滑动 平均 模型 和 指数 衰减 的 学 习 率 可 以 发 挥 更 大 的 作用 。 比 如 在 Cifar-10 图 像 分 类 数据 
集 上 ， 使 用 滑动 平均 模型 可 以 将 错误 率 降低 11%， 而 使 用 指数 衰减 的 学 习 率 可 以 将 错误 率 
降低 7%。 

相 比 滑动 平均 模型 和 指数 衰减 学 习 率 ， 使 用 加 入 正则 化 的 损失 函数 给 模型 效果 带 来 的 
提升 要 相对 显著 。 使 用 了 正则 化 损失 函数 的 神经 网 络 模型 可 以 降低 大 约 6% 的 错误 率 《 从 
1.69% 降 低 到 1.59%)。 图 5-6 和 图 5-7 显示 了 正则 化 给 模型 优化 过 程 带 来 的 影响 。 图 5-6 和 
5-7 对 比 了 两 个 使 用 了 不 同 损失 函数 的 神经 网 络 模 型 。 一 个 模型 只 最 小 化 交 又 烂 损 失 ， 
以 下 代码 给 出 了 只 优化 交 又 炉 模 型 的 模型 优化 函数 的 声明 语句 。 

train step = tf.train,.GradientDescentOptimizer (learning rate)\ 

‘minimize (cross entropy mean global step=global step) 

另 一 个 模型 优化 的 是 交叉 米 和 £2 正则 化 损失 的 和 ,以 下 代码 给 出 了 这 个 模型 优化 函数 
的 声明 语句 。 

loss = cross entropy mean + regularaztion 

train step = tf.train.GradientDescentOptimizer (learning rate)\ 

.minimize(loss, global step=global step) 

在 图 5-6 中 灰色 和 黑色 的 实 线 给 出 了 两 个 模型 正确 率 的 变化 趋势 ， 虚 线 给 出 了 在 当前 

训练 batch 上 的 交叉 炉 损失 。 
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一 一 一 优化 交叉 俩 模 钳 的 正确 率 优化 总 损失 模型 正确 率 - -~ - - 优化 交叉 情 模 昏 的 交叉 焙 ~ - - ~ 优化 总 损失 模型 的 交叉 十 
图 5-6 不 同 模 型 在 不 同 迭 代 轮 数 时 交叉 烂 和 正确 率 的 关系 
从 图 5-6 中 可 以 看 出 ， 只 优化 交叉 粮 的 模型 在 训练 数据 上 的 交叉 炉 损 失 〈 灰 色 虚 线 ) 
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要 比 优化 总 损失 的 模型 更 小 《黑色 虑 线 )。 然 而 在 测试 数据 上 ， 优 化 总 损失 的 模型 《黑色 实 
线 ) 却 要 好 于 只 优化 交叉 蚁 的 模型 (灰色 实 线 )。 这 个 原因 就 是 第 4 章 中 介绍 的 过 拟 合 问题 。 
只 优化 交叉 烂 的 模型 可 以 更 好 地 拟 合 训练 数据 (交叉 燃 损失 更 小 ), 但 是 却 不 能 很 好 地 挖掘 
数据 中 潜在 的 规律 来 判断 未 知 的 测试 数据 ， 所 以 在 测试 数据 上 的 正确 率 低 。 

图 5-7 显示 了 不 同 模型 的 损失 函数 的 变化 趋势 。 图 5-7 的 左 侧 显示 了 只 优化 交叉 灶 的 
模型 损失 函数 的 变化 规律 。 可 以 看 到 随 着 迁 代 的 进行 ， 正 则 化 损失 是 在 不 断 加 大 的 。 因 为 
MNIST 问题 相对 比价 简单 ， 返 代 后 期 的 梯度 很 小 (参考 图 5-4)， 所 以 正则 化 损失 的 增长 也 
不 快 。 如 果 问 题 更 加 复杂 ， 迹 代 后 期 的 梯度 更 大 ， 就 会 发 现 总 损失 (交叉 和 损 失 加 上 正则 
化 损失 ) 会 呈现 出 一 个 U 字 型 。 在 图 5-7 的 右 侧 ， 显 示 了 优化 总 损失 的 模型 损失 函数 的 变 
化 规律 。 从 图 5-7 中 可 以 看 出 ， 这 个 模型 的 正则 化 损失 部 分 也 可 以 随 着 达 代 的 进行 越 来 越 
小 ， 从 而 使 得 整体 的 损失 呈现 一 个 逐步 递减 的 趋势 。 


| 不 使 用 正则 化 模型 


一 正则 化 损失 “一 一 总 损失 


使 用 正则 化 模型 








一 正则 化 损失 ”一 一 总 损失 





图 5-7 正则 化 损失 值 和 总 损失 的 变化 趋势 


总 的 来 说 , 通过 MNIST 数据 集 有 效 地 验证 了 激活 函数 、 隐 藏 层 可 以 给 模型 的 效果 带 来 
质 的 飞跃 。 由 于 MNIST 问题 本 身 相 对 简单 ， 滑 动 平均 模型 、 指 数 衰减 的 学 习 率 和 正则 化 损 
失 对 最 终 正 确 率 的 提升 效果 不 明显 。 但 通过 进一步 分 析 实 验 的 结果 ， 可 以 得 出 这 些 优化 方 
法 确实 可 以 解决 第 4 章 中 提 到 的 神经 网 络 优化 过 程 中 的 问题 。 当 需要 解决 的 问题 和 使 用 到 
的 神经 网 络 模型 更 加 复杂 时 ， 这 些 优 化 方法 将 更 有 可 能 对 训练 效果 产生 更 大 的 影响 。 


D3 


Kk 


量 浓 理 


在 5.2.1 小 节 中 将 计算 神经 网 络 前 向 传播 结果 的 过 程 抽象 成 了 一 个 函数 。 通 过 这 种 方式 
在 训练 和 测试 的 过 程 中 可 以 统一 调用 同一 个 函数 来 得 模型 的 前 向 传播 结果 。 在 5$.2.1 小 节 
中 ， 这 个 函数 的 定义 为 : z 


def inference (input tensor, avg class, weights]l, biasesl, weights2, biases2): 
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从 定义 中 可 以 看 到 ， 这 个 函数 的 参数 中 包括 了 神经 网 络 中 的 所 有 参数 。 然 而 ， 当 神经 
网 络 的 结构 更 加 复杂 、 参 数 更 多 时 ， 就 需要 一 个 更 好 的 方式 来 传递 和 管理 神经 网 络 中 的 参 
数 了 。TensorFlow 提供 了 通过 变量 名 称 来 创建 或 者 获取 一 个 变量 的 机 制 。 通 过 这 个 机 制 ， 
在 不 同 的 函数 中 可 以 直接 通过 变量 的 名 字 来 使 用 变量 ， 而 不 需要 将 变量 通过 参数 的 形式 到 
处 传递 。TensorFlow 中 通过 变量 名 称 获取 变量 的 机 制 主要 是 通过 共 get variable 和 
tfvariable_ scope 函数 实现 的 。 下 面 将 分 别 介绍 如 何 使 用 这 两 个 函数 。 

第 4 章 介 绍 了 通过 革 Variable 函数 来 创建 一 个 变量 。 除 了 tfVariable 函数 ，TensorFlow 
还 提供 了 证 get_variable 函数 来 创建 或 者 获取 变量 。 当 tget_variable 用 于 创建 变量 时 , 它 和 
tf.Variable 的 功能 是 基本 等 价 的 。 以 下 代码 给 出 了 通过 这 两 个 函数 创建 同一 个 变量 的 样 例 。 

# 下 面 这 两 个 定义 是 等 价 的 。 

Vv = tf.get variable("y", shape=[1], 

initializer=tf.constant initializer!(1.0)) 

V = tf.Variablel(tf.constant (1.0, shape=[1]), name="v") 

从 上 面 的 代码 中 可 以 看 出 ， 通 过 tf,.Variable 和 tfget_variable 函数 创建 变量 的 过 程 基本 
上 是 一 样 的 ,tf.get_variable 函数 调用 时 提供 的 维度 (shape) 信 息 以 及 初始 化 方法 (initializer) 
的 参数 和 给 ,Variable 函数 调用 时 提供 的 初始 化 过 程 中 的 参数 也 类 似 。TensorFlow 中 提供 的 
initializer 函数 和 3.4.3 小 节 中 介绍 的 随机 数 以 及 常量 生成 函数 大 部 分 是 一 一 对 应 的 。 比 如 ， 
在 上 面 的 样 例 程序 中 使 用 到 的 常数 初始 化 函数 妊 constant initializer 和 常数 生成 函数 
tf.constant 功能 上 就 是 一 致 的 。TensorFlow 提供 了 7 种 不 同 的 初始 化 函数 ， 表 5-2 总 结 了 它 
们 的 功能 和 主要 参数 。 


表 5-2 TensorFlow 中 的 变量 初始 化 函数 


初 化 本 | 才 约 
TIETTT ET 
将 变量 初始 化 为 满足 正太 分 布 的 随机 值 正 态 分 布 的 均值 和 标准 差 


tftruncated_ pormal_initializer 将 变量 初始 化 为 满足 正 态 分 布 的 随机 值 ， 但 如 果 随 机 | 正 态 分 布 的 均值 和 标准 差 
出 来 的 值 偏离 平均 值 超过 2 个 标准 差 ， 那 么 这 个 数 将 
会 被 重新 随机 


将 变量 初始 化 为 满足 平均 分 布 的 随机 值 最 大 、 最 小 值 










将 变量 初始 化 为 满足 平均 分 布 但 不 影响 输出 数量 级 的 | factor( 产 生 随 机 值 时 乘 以 的 
随机 值 系数 ) 


TI rT 
rr rT 


引 get_variable 函数 与 给 Variable 函数 最 大 的 区 别 在 于 指定 变量 名 称 的 参数 。 对 于 
tf:Variable 函数 ， 变 量 名 称 是 一 个 可 选 的 参数 ， 通 过 name="v" 的 形式 给 出 。 但 是 对 于 
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tf.get_variable 函数 ， 变 量 名 称 是 一 个 必 填 的 参数 。tf.get_variable 会 根据 这 个 名 字 去 创建 或 
者 获取 变量 。 在 上 面 的 样 例 程 序 中 ,tf.get_variable 首先 会 试图 去 创建 一 个 名 字 为 v 的 参数 ， 
如 果 创 建 失败 (比如 已 经 有 同名 的 参数 )， 那 么 这 个 程序 就 会 报错 。 这 是 为 了 避免 无 意识 的 
变量 复 用 造成 的 错误 。 比 如 在 定义 神经 网 络 参数 时 ， 第 一 层 网 络 的 权重 已 经 叫 weights 了 ， 
那么 在 创建 第 二 层 神 经 网 络 时 ， 如 果 参 数 名 仍然 叫 weights， 就 会 触发 变量 重用 的 错误 。 否 
则 两 层 神经 网 络 共用 一 个 权重 会 出 现 一 些 比较 难以 发 现 的 错误 。 如 果 需 要 通过 
tf.get_variable 获取 一 个 已 经 创建 的 变量 , 需要 通过 tf.variable_scope 函数 来 生成 一 个 上 下 文 
管理 器 ， 并 明确 指定 在 这 个 上 下 文 管理 器 中 ，get_variable 将 直接 获取 已 经 生成 的 变量 。 
下 面 给 出 了 一 段 代 码 说 明 如 何 通 过 tf.variable_scope 函数 来 控制 tget_variable 函数 获取 已 
经 创建 过 的 变量 。 

# 在 名 字 为 foo 的 命名 空间 内 创建 名 字 为 v 的 变量 。 

with tf.variable scope ("foo"): 


V = tf.get Variable ( 
"V"7 [1], initializer=tf.constant initializer(1.0)) 


# 因为 在 命名 空间 foo 中 已 经 存在 名 字 为 v 的 变量 ， 所 有 下 面 的 代码 将 会 报错 : 
# Variable foo/v already exists, disalljowed. Did you mean to set reuse=True 
# in VarScope? 
with tf.variable SCcope("foo"”) : 
V = tf.get variable("v", [1]) 


# 在 生成 上 下 文 管理 器 时 , 将 参数 reuse 设置 为 True。 这 样 tf ,get variable 函数 将 直接 获取 
# 已 经 声明 的 变量 。 
with tf.variable scope ("foo", reuse=True): 

vi = tf.get variable("v", [1]) 

print Vv == V1  ”# 输出 为 True， 代表 v，v1 代表 的 是 相同 的 TensorFlow 中 变量 。 


# 将 参数 reuse 设置 为 True 时 ，tf.variable scope 将 只 能 获取 已 经 创建 过 的 变量 。 因 为 在 

# 命名 空间 bar 中 还 没有 创建 变量 v， 所 以 下 面 的 代码 将 会 报错 : 

# Variable bar/v does not exist, disallowed. Did you mean to set reuse=None 

# in VarScope? 

with tf.variable Scope("bar" reuse=True): 

V = tf.get variable("v", [1]) 

上 面 的 样 例 简单 地 说 明了 通过 tf.variable_scope 函数 可 以 控制 姨 get variable 函数 的 语 
义 。 当 给 variable_scope 函数 使 用 参数 reuse=True 生成 上 下 文 管理 器 时 ， 这 个 上 下 文 管理 器 
内 所 有 的 给 get_variable 函数 会 直接 获取 已 经 创建 的 变量 。 如 果 变 量 不 存在 , 则 tf.get_variable 
国 数 将 报错 ; 相反 ， 如 果 给 variable_scope 函数 使 用 参数 reuse=None 或 者 reuse=False 创建 
上 下 文 管理 器 ， 攻 get_variable 操作 将 创建 新 的 变量 。 如 果 同 名 的 变量 已 经 存在 ， 则 
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tf.get_variable 函数 将 报错 。TensorFlow 中 tf.variable_scope 函数 是 可 以 髓 套 的。 下 面 的 程序 
说 明了 当 tf.variable_scope 函数 舱 套 时 ，reuse 参数 的 取 值 是 如 何 确定 的 。 


with tf.variable SCcope("root") : 
# 可 以 通过 tf.get variable scope() .reuse 函数 来 获取 当前 上 下 文 管理 器 中 reuse 参 
# 数 的 取 值 。 
print tf.get variable scope() .reuse  # 输出 False, 即 最 外 层 reuse 是 False。 


with tf.variable scope ("foo", reuse=True) : # 新 建 一 个 嵌 套 的 上 下 文 管理 器 ， 
# 并 指定 reuse 为 True。 
print tf.get variable scope() .reuse # 输出 True。 
with tf.variable scope ("bar"): # 新 建 一 个 嵌 套 的 上 下 文 管 理 器 但 
# 不 指定 reuse， 这 时 reuse 
# 的 取 值 会 和 外 面 一 层 保持 一 致 。 
print tf.get variable scope() .reuse # 输出 True。 
print tf.get variable scope() .reuse # 输出 False。 退 出 reuse 设置 
# 为 True 的 上 下 文 之 后 
# reuse 的 值 又 回 到 了 False。 


tf.variable_scope 函数 生成 的 上 下 文 管理 器 也 会 创建 一 个 TensorFlow 中 的 命名 空间 , 在 
命名 空间 内 创建 的 变量 名 称 都 会 带 上 这 个 命名 空间 名 作为 前 级 。 所 以 ，tf.variable_scope 函 
数 除了 可 以 控制 给 get_variable 执行 的 功能 之 外 ， 这 个 函数 也 提供 了 一 个 管理 变量 命名 空间 
的 方式 。 以 下 代码 显示 了 如 何 通 过 tf.variable_scope 来 管理 变量 的 名 称 。 

vl 一 七 .get variable("v", [1]) 


print vl.name # 输出 VvV:0。“v” 为 变量 的 名 称 ,“ : 0” 表 示 这 个 变量 是 生成 变量 这 个 运算 
# 的 第 一 个 结果 。 


with tf.variable scope ("foo"): 
V2 = tf.get variable("v", [1]) | 
print v2,name # 输出 foo/v:0。 在 tf.variable scope 中 创建 的 变量 ， 名 称 前 面 会 
# 加 入 命名 空间 的 名 称 ， 并 通过 /来 分 隔 命 名 空间 的 名 称 和 变量 的 名 称 。 


with tf.variable scope("foo") : 
with tf.variable SCcope("bazr") : 
V3 = tf.get Variable("v" [1]) 
print v3.name # 输出 foo/bar/v:0。 命名 空间 可 以 肉 套 ; 同时 变量 的 名 称 也 会 加 
# 入 所 有 命名 空间 的 名 称 作为 前 绷 。 


v4 = tf.get variable("vi", [1]) 
Print v4.name “ # 输出 foo/v1:0。 当 命名 空间 退出 之 后 ， 变 量 名 称 也 就 不 会 再 被 加 入 
# 其 前 缀 了 。 


# 创建 一 个 名 称 为 空 的 命名 空间 ， 并 设置 reuse=True。 


with tf.variable scope("", reuse=True): 
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v5 = tf.get variable("foo/bar/v")， [1]) # 可 以 直接 通过 带 命 名 空间 名 称 的 变量 名 
# 来 获取 其 他 命名 空间 下 的 变量 ,比如 这 
# 里 通过 指定 名 称 fo0/bar/v 来 获取 在 
# 命名 空间 foo/bar/ 中 创建 的 变量 。 


print v5 == V3 # 输出 True。 
v6 = tf.get variable ("foo/vil", [1]) 
print v6 == v4 # 输出 True。 


通过 tf.variable scope 入 get_variable 函数 ， 以 下 代码 对 5.2.1 小 节 中 定义 的 计算 前 问 
传播 结果 的 函数 做 了 一 些 改进 。 


def inference(input tensor, reuse=False): 


Io % 


# 定义 第 一 层 神 经 网 络 的 变量 和 前 向 传播 过 程 。 
with tf.variable scopel(l'layerl', reuse=reuse): 
# 根据 传 进来 的 reuse 来 判断 是 创建 新 变量 还 是 使 用 已 经 创建 好 的 。 在 第 一 次 构造 网 
# 络 时 需要 创建 新 的 变量 ， 以 后 每 次 调用 这 个 函数 都 直接 使 用 reuse=True 就 个 十 
# 要 每 次 将 变量 传 进来 了 。 
weights = tf.get variable("weights", [INPUT _ NODE， LAYER1 NODE], 
initializer=tf.truncated normal initializer(stddev=0.1)) 
biases = tf.get variable ("biases", [LAYER]1 NODE], 
initializer=tf.constant initializer(0.0)) 
layerl = tf.nn.relul(tf.matmul (input tensor, weights) + biases) 


# 类 似 地 定义 第 二 层 神经 网 络 的 变量 和 前 向 传播 过 程 。 
with tf.variable scope('layer2', reuse=reuse): 
weights = tf.get variable ("weights", [LAYER]1 NODE, OUTPUT NODE], 
initializer=tf.truncated normal initializer (stddev=0.1)) 
biases = tf.get variable("biases", [OUTPUT NODE], 
initializer=tf.constant initializer(0.0)) 
layer2 = tf.matmul (layerl, weights) + biases 
# 返回 最 后 的 前 向 传播 结果 。 


return layer2 


tf.placeholder (tf.float32, [None, INPUT NODE], name='x-input.') 
inference (xX) 


# 在 程序 中 需要 使 用 训练 好 的 神经 网 络 进行 推导 时 ， 可 以 直接 调用 inference (new_x, True)。 
# 如 果 需 要 使 用 滑动 平均 模型 可 以 参考 5.2 .1 小 节 中 使 用 的 代码 ， 把 计算 滑动 平均 的 类 传 到 


# inference 函数 中 即 可 。 获 取 或 者 创建 变量 的 部 分 不 需要 改变 。 
NeW Xs ds 
new y = inference (new x, True) 


使 用 上 面 这 段 代 码 所 示 的 方式 ， 就 不 再 需要 将 所 有 变量 都 作为 参数 传递 到 不 同 的 函数 
中 了 。 当 神经 网 络 结构 更 加 复杂 、 参 数 更 多 时 ， 使 用 这 种 变量 管理 的 方式 将 大 大 提高 程序 
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的 可 读 性 。 


5.4 TensorFlow 模型 持久 化 


在 5.2.1 小 节 中 给 出 的 样 例 代码 在 训练 完成 之 后 就 直接 退出 了 , 并 没有 将 训练 得 到 的 模 
型 保存 下 来 方便 下 次 直接 使 用 。 为 了 让 训练 结果 可 以 复 用 ， 需 要 将 训练 得 到 的 神经 网 络 模 
型 持久 化 。5.4.1 小 节 将 介绍 通过 TensorFlow 程序 来 持久 化 一 个 训练 好 的 模型 并 从 持久 化 
之 后 的 模型 文件 中 还 原 被 保存 的 模型 。 然 后 5.4.2 小 节 将 介绍 TensorFlow 持久 化 的 工作 原 
理 和 持久 化 之 后 文件 中 的 数据 格式 。 


5.4.1 持久 化 代码 实现 


TensorFlow 提供 了 一 个 非常 简单 的 API 来 保存 和 还 原 一 个 神经 网 络 模 型 。 这 个 API 就 
是 给 train.Saver 类 。 以 下 代码 给 出 了 保存 TensorFlow 计算 图 的 方法 。 


import tensorflow as tf 


# 声明 两 个 变量 并 计算 它们 的 和 。 

vl = tf.Variablel(tf.constant (1.0, shape=[1]), name='"v1") 
v2 = tf.Variable (tf.constant (2.0, shape=[1]), name="v2") 
result = vi + V2 


init op = tf.initialize all variables () 
# 声明 tf.train.Saver 类 用 于 保存 模型 。 


saver = tf.train.Saver() 


with tf.Session() as sess: 
sess.runl(init op) 
# 将 模型 保存 到 /path/ 本 3 文件 。 
saver.save (sess, "/path/to/model/model .ckpt") 

上 面 的 代码 实现 了 持久 化 一 个 简单 的 TensorFlow 模型 的 功能 。 在 这 段 代码 中 ， 通 过 
saVer.saVe 函数 将 TensorFlow 模型 保存 到 了 /path/to/model/model.ckpt 文件 中 。TensorFlow 模 
型 一 般 会 存在 后 缀 为 .ckpt 的 文件 中 。 虽 然 上 面 的 程序 只 指定 了 一 个 文件 路 径 ， 但 是 在 这 个 
文件 目录 下 会 出 现 三 个 文件 。 这 是 因为 TensorFlow 会 将 计算 图 的 结构 和 图 上 参数 取 值 分 开 
保存 。 

上 面 这 上段 代码 会 生成 的 第 一 个 文件 为 model.ckpt.meta， 它 保存 了 TensorFlow 计算 图 的 
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结构 。 第 3 章 中 介绍 过 TensorFlow 计算 图 的 原理 ， 这 里 可 以 简单 理解 为 神经 网 络 的 网 络 结 
构 。 第 二 个 文件 为 model.ckpt， 这 个 文件 中 保存 了 TensorFlow 程序 中 每 一 个 变量 的 取 值 。 
最 后 一 个 文件 为 checkpoint 文件 ， 这 个 文件 中 保存 了 一 个 目录 下 所 有 的 模型 文件 列表 。 对 
这 些 文件 中 的 具体 内 容 ，5.4.2 小 节 中 将 详细 讲述 。 以 下 代码 中 给 出 了 加 载 这 个 已 经 保存 的 
TensorFlow 模型 的 方法 。 


import tensorflow as tf 


# 使 用 和 保存 模型 代码 中 一 样 的 方式 来 声明 变量 ， 

V1 = tf.Variable(tf.constant (1.0, shape=[1]), name="VvV1") 
V2 = tf.Variable (tf.constant(2.0, shape=[1]), name="v2") 
result = vl + v2 


saver = tf.train.SsSaverl() 


with tf.Session() as sess: 


# 加 载 已 经 保存 的 模型 ， 并 通过 已 经 保存 的 模型 中 变量 的 值 来 计算 加 法 。 
saver.restore(sess, "/path/to/model/model .ckpt") 
print sess.run(result) 


这 段 加 载 模 型 的 代码 基本 上 和 保存 模型 的 代码 是 一 样 的 。 在 加 载 模 型 的 程序 中 也 是 先 
定义 了 TensorFlow 计算 图 上 的 所 有 运算 ， 并 声明 了 一 个 tttrain.Saver 类 。 两 段 代 码 唯一 不 
同 的 是 ， 在 加 载 模型 的 代码 中 没有 运行 变量 的 初始 化 过 程 ， 而 是 将 变量 的 值 通过 已 经 保存 
的 模型 加 载 进来 。 如 果 不 希 望 重复 定义 图 上 的 运算 ， 也 可 以 直接 加 载 已 经 持久 化 的 图 。 以 
下 代码 给 出 了 一 个 样 例 。 

import tensorflow as tf 


# 直接 加 载 持久 化 的 图 。 


saver = tf,.train.import meta Graph 人 
"/path/to/model/model .ckpt/model .ckpt .meta") 
with tf.Session() as sess: 
saver.restore(sess, "/path/to/model/model .ckpt"). 
# 通过 张 量 的 名 称 来 获取 张 量 。 
print sess.run(tE.get default graphl{) .get tensor by name ("add:0")) 
# 输出 [ 3.] 
在 上 面 给 出 的 程序 中 ,默认 保存 和 加 载 了 TensorFlow 计算 图 上 定义 的 全 部 变量 。 但 有 
时 可 能 只 需要 保存 或 者 加 载 部 分 变量 。 比 如 ， 可 能 有 一 个 之 前 训练 好 的 五 层 神经 网 络 模型 ， 
但 现在 想 尝 试 一 个 六 层 的 神经 网 络 ， 那 么 可 以 将 前 面 五 层 神经 网 络 中 的 参数 直接 加 载 到 新 
的 模型 ， 而 仅仅 将 最 后 一 层 神经 网 络 重 新 训练 。 
为 了 保存 或 者 加 载 部 分 变量 ， 在 声明 给 train.Saver 类 时 可 以 提供 一 个 列表 来 指定 需要 
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保存 或 者 加 载 的 变量 。 比 如 在 加 载 模型 的 代码 中 使 用 saver = tf.train.Saver([v1]) 命 令 来 构建 
tf.train.Saver 类 ， 那么 只 有 变量 vl 会 被 加 载 进来 。 如 果 运 行 修改 后 只 加 载 了 vl 的 代码 会 得 
到 变量 未 初始 化 的 错误 : 


tensorflow.python,.framework.errors,.FailedPreconditionError: Attempting to 
use uninitialized value v2 


因为 y2 没有 被 加 载 ， 所 以 v2 在 运行 初始 化 之 前 是 没有 值 的 。 除 了 可 以 选取 需要 被 加 
载 的 变量 ,tf.train.Saver 类 也 文 持 在 保存 或 者 加 载 时 给 变量 重 命 名 。 下 面 给 出 了 一 个 简单 的 
样 例 程序 说 明 变 量 重 命名 是 如 何 被 使 用 的 。 

# 这 里 声明 的 变量 名 称 和 已 经 保存 的 模型 中 变量 的 名 称 不 同 。 


Vl = tf.Variable (tf.constant (1I.0，Shape=[1])，name="othez-VLI7) 
v2 = tf.Variable (tf.constant(2.0, shape=[1]), name="other~=v2") 


# 如 果 直 接 使 用 tf .train.Ssaver() 来 加 载 模型 会 报 变量 找 不 到 的 错误 。 下面 显示 了 报错 信息 : 
# tensorflow.python.framework.errors.NotFoundError: Tensor name "other-v2" 
# not found in chéckpoint files /path/to/model/model .ckpt 


# 使 用 一 个 字典 (dictionary) 来 重 命名 变量 可 以 就 可 以 加 载 原来 的 模型 了 。 这 个 字典 指定 了 

# 原来 名 称 为 v1 的 变量 现在 加 载 到 变量 v1i 中 (名 称 为 other-vl1)， 名 称 为 v2 的 变量 

# 加 载 到 变量 v2 中 名称 为 other-v2)。 

saver = tf.train.Saver({"vil": vi, "v2": v2)})) 

在 这 个 程序 中 ， 对 变量 v1 和 v2 的 名 称 进行 了 修改 。 如 果 直 接 通过 tftrain.Saver 默认 
的 构造 函数 来 加 载 保 存 的 模型 ， 那 么 程序 会 报 变 量 找 不 到 的 错误 。 因 为 保存 时 候 变量 的 名 
称 和 加 载 时 变量 的 名 称 不 一 致 。 为 了 解决 这 个 问题 ，TensorFlow 可 以 通过 字典 (dictionary) 
将 模型 保存 时 的 变量 名 和 需要 加 载 的 变量 联系 起 来 。 

这 样 做 主要 目的 之 一 是 方便 使 用 变量 的 滑动 平均 值 。 在 4.4.3 小 节 中 介绍 了 使 用 变量 的 
滑动 平均 值 可 以 让 神经 网 络 模型 更 加 健壮 〈robust)。 在 TensorFlow 中 ， 每 一 个 变量 的 滑动 
平均 值 是 通过 影子 变量 维护 的 ， 所 以 要 获取 变量 的 滑动 平均 值 实际 上 就 是 获取 这 个 影子 变 
量 的 取 值 。 如 果 在 加 载 模型 时 直接 将 影子 变量 映射 到 变量 上 自身， 那么 在 使 用 训练 好 的 模型 
时 就 不 需要 再 调用 函数 来 获取 变量 的 滑动 平均 值 了 。 这样 大 大 方便 了 滑动 平均 模型 的 使 用 。 
以 下 代码 给 出 了 一 个 保存 滑动 平均 模型 的 样 例 。 


import tensorflow as tf 


V = tf.Variable(0, dtype=tf.float32, name="v") 
# 在 没有 申明 滑动 平均 模型 时 只 有 一 个 变量 v， 所 以 下 面 的 语句 只 会 输出 “v:0”。 
for variables in tf.all variables (): 

print variables .name 
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ema = tf.train.ExponentialMovingAverage(0.99) 
maintain averages op = ema.apply (tf.all variables()) 


# 在 申明 滑动 平均 模型 之 后 ，TensorFlow 会 自动 生成 一 个 影子 变量 


# Vv/ExponentialMoving Average。 于 是 下 面 的 语句 会 输出 
# “v:0” 和 “v/ExponentialMovingAverage:0”。 
for variables in tf.all variables(): 

print variables.name 


saver = tf.train.Saver() 
with tf.Session() as sess: 


init op = tf.initialize all variables () 
sess.run(init op) 


sess.run(tf.assign(v, 10)) 
sess.run(maintain averages op) 


# 保存 时 , TensorFlow 会 将 VvV:0 和 Vv/ExponentialMovingAverage:0 两 个 变量 都 存 下 来 。 
saver.save (sess, "/path/to/model/model .ckpt") 


print sess.run([v, ema.average (Vv)]) # 输出 [10.0，0.099999905] 


以 下 代码 给 出 了 如 何 通 过 变量 重 命 名 直接 读 取 变量 的 滑动 平均 值 。 从 下 面 程序 的 输出 
可 以 看 出 ， 读 取 的 变量 v 的 值 实际 上 是 上 面 代 码 中 变量 v 的 滑动 平均 值 。 通 过 这 个 方法 ， 
融 可 以 使 用 完全 一 样 的 代码 来 计算 滑动 平均 模型 前 癌 传 播 的 结果 。 

V = tf.Variable(0, dtype=tf.float32, name="V") 

# 通过 变量 重 命名 将 原来 变量 v 的 滑动 平均 值 直 接 赋 值 给 v。 


saver = tf.train.Saver({"v/ExponentialMovingAverage": VV}) 
with tf.Session() as sess: 


saver.restore(sess, "/path/to/model/model .ckpt") 


print sess,run(v) # 输出 0.099999905， 这 个 值 就 是 原来 模型 中 变量 v 的 滑动 平均 值 。 


为 了 方便 加 载 时 重 命名 滑动 平均 变量 ，tf.train.ExponentialMovingAverage 类 提供 了 
Variables_to_restore 函数 来 生成 tftrain.Saver 类 所 需要 的 变量 重 命名 字典 。 以 下 代码 给 出 了 
variables to_restore 函数 的 使 用 样 例 。 


import tensorflow as tf 


V = tf.Variable(0, dtype=tf.float32, name="V") 
ema = tf.train.ExponentialMovingAverage (0 .99) 


# 通过 使 用 variables to restore 函数 可 以 直接 生成 上 面 代码 中 提供 的 字典 
# {"v/ExponentialMovingAverage": vj}。 

# 以 下 代码 会 输出 : 

# {'v/ExponentialMovingAverage': 


<tensorflow.python.ops.variables.Variable 
# object at Ox7ff6454ddcl10>} 
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# 其 中 后 面 的 Variable 类 就 代表 了 变量 v。 


print ema.variables to _ restore () 


saver = tf.train.Saver(ema.variables to restore!()) 
with tf.Session() as sess: 


saver.restore (sess, "/path/to/model/model .ckpt") 


print sess.run(v) # 输出 0.099999905， 即 原来 模型 中 变量 v 的 滑动 平均 值 。 


使 用 tftrain.Saver 会 保存 运行 TensorFlow 程序 所 需要 的 全 部 信息 ， 然 而 有 时 并 不 需要 
茶 些 信息 。 比 如 在 测试 或 者 离线 预测 时 ， 只 需要 知道 如 何 从 神经 网 络 的 输入 层 经 过 前 向 传 
播 计算 得 到 输出 层 即 可 ， 而 不 需要 类 似 于 变量 初始 化 、 模 型 保存 等 辅助 节点 的 信息 。 在 第 
6 章 介 绍 迁 移 学 习 时 ， 会 遇 到 类 似 的 情况 。 而 且 ， 将 变量 取 值 和 计算 图 结构 分 成 不 同 的 文 
件 存储 有 时 候 也 不 方便 , 于 是 TensorFlow 提供 了 convert _ variables_to_constants 函数 , 通过 
这 个 函数 可 以 将 计算 图 中 的 变量 及 其 取 值 通过 常量 的 方式 保存 ， 这 样 整个 TensorFlow 计算 
图 可 以 统一 存放 在 一 个 文件 中 。 下 面 的 程序 提供 了 一 个 样 例 。 


import tensorflow as tf 
from tensorflow.python.framework import graph util 


V1 
V2 


tf.Variable (tf.constant (1.0, shape=[1]), name="v1") 
tf.Variable (tf.constant (2.0, shape=[1]), name="Vv2") 


result = vl + v2 


init op = tf.initialize all variables() 
with tf.Session() as sess: 


中 第 3 


sess.run(init op) 

# 导出 当前 计算 图 的 GraphDef 部 分 ， 只 需要 这 一 部 分 就 可 以 完成 从 输入 层 到 输出 层 的 计算 
# 过 程 。 

graph def = tf.get default graph() .as graph def () 


# 将 图 中 的 变量 及 其 取 值 转化 为 常量 ， 同 时 将 图 中 不 必要 的 节点 去 掉 。 在 5.4.2 小 节 中 将 会 看 
# 到 一 些 系统 运算 也 会 被 转化 为 计算 图 中 的 节点 《比如 变量 初始 化 操作 )。 如 果 只 关心 程序 中 定 
# 义 的 某 些 计 算 时 ， 和 这 些 计算 无 关 的 节点 就 没有 必要 导出 并 保存 了 。 在 下 面 一 行 代码 中 , .最 
# 后 一 个 参数 ['add'] 给 出 了 需要 保存 的 节点 名 称 。add 节点 是 上 面 定义 的 两 个 变量 相 加 的 
# 操作 。 注 意 这 里 给 出 的 是 计算 节点 的 名 称 ， 所 以 没有 后 面 的 : 0。 
output graph def = graph util.convert Variables to Constants ( 
sess, graph def, ['add']) 
# 将 导出 的 模型 存 入 文件 。 
with tf.gfile.GFile("/path/to/model/combined model.pb", "wb") as 工 : 
f.write(output graph def.SerializeToStzring() ) 


章 中 介绍 过 张 量 的 名 称 后 面 有 :0， 表 示 是 某 个 计算 节点 的 第 一 个 输出 。 而 计算 节点 本 身 的 名 称 后 


是 没有 :0 的 。 
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通过 下 面 的 程序 可 以 直接 计算 定义 的 加 法 运算 的 结果 。 当 只 需要 得 到 计算 图 中 某 个 节 
点 的 取 值 时 ， 这 提供 了 一 个 更 加 方便 的 方法 。 第 6 章 将 使 用 这 种 方法 来 使 用 训练 好 的 模型 
完成 迁移 学 习 。 

import tensorflow as tf 

from tensorflow.python.platform import gfile 


with tf.Session() as sess: 
model filename = "/path/to/model/combined model .pb" 
# 读 取 保存 的 模型 文件 ， 并 将 文件 解析 成 对 应 的 GraphDef Protocol Buffer。 
with gfile.FastGFile(model filename, 'rb') as f: 
Graph def = tf.GraphDef () 
graph def.ParseFromString(f.read!()) 


# 将 graph_ def 中 保存 的 图 加 载 到 当前 的 图 中 。return elements=["add:0"] 给 出 了 返回 
# 的 张 量 的 名 称 。 在 保存 的 时 候 给 出 的 是 计算 节点 的 名 称 ， 所 以 为 “add”。 在 加 载 的 时 候 给 出 
# 的 是 张 量 的 名 称 ， 所 以 是 add:0。 

result = tf.import graph def (graph def, return elements=["add:0"]) 
print sess.runl(result) 


5.4.2 ”持久 化 原理 及 数据 格式 


5.4.1 小 节 介 绍 了 当 调 用 saversave 函数 时 ，TensorFlow 程序 会 自动 生成 3 个 文件 。 
TensorFlow 模型 的 持久 化 就 是 通过 这 3 个 文件 完成 的 。 这 一 小 节 将 详细 介绍 这 3 个 文件 中 
保存 的 内 容 以 及 数据 格式 。 在 具体 介绍 每 一 个 文件 之 前 ， 先 简单 回顾 一 下 第 3 章 中 介绍 过 
的 TensorFlow 的 一 些 基 本 概念 。TensorFlow 是 一 个 通过 图 的 形式 来 表述 计算 的 编程 系统 ， 
TensorFlow 程序 中 的 所 有 计算 都 会 被 表达 为 计算 图 上 的 节点 。TensorFlow 通过 元 图 
(MetaGraph ) 来 记录 计算 图 中 节点 的 信息 以 及 运行 计算 图 中 节点 所 需要 的 元 数据 。 
TensorFlow 中 元 图 是 由 MetaGraphDef Protocol Buffer 定义 的 ?>。MetaGraphDef 中 的 内 容 就 
构成 了 TensorFlow 持久 化 时 的 第 一 个 文件 。 以 下 代码 给 出 了 MetaGraphDef 类 型 的 定义 。 


message MetaGraphDef { 
MetaInfoDef meta info def = 1; 


GraphDef graph def = 2; 
SaverDef saver def = 3; 
map<string, CollectionDef> collection def = 4; 


四 2.1 节 中 有 关于 Protocol Buffer 的 具体 介绍 。 
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map<string, SignatureDef> signature def = 5; 


} 

从 上 面 的 代码 中 可 以 看 到 ,元 图 中 主要 记录 了 5 类 信息 .下面 的 篇 幅 将 结合 5.4.1 小 节 
中 变量 相 加 样 例 的 持久 化 结果 ， 逐 一 介绍 MetaGraphDef 类 型 的 每 一 个 属性 中 存储 的 信息 。 
保存 MetaGraphDef 信息 的 文件 默认 以 .meta 为 后 缀 名 ， 在 5.4.1 小 节 的 样 例 中 ， 文 件 
model.ckpt.meta 中 存储 的 就 是 元 图 的 数据 。 直接 运行 5.4.1 小 节 样 例 得 到 的 是 一 个 二 进 制 文 
件 ， 无 法 直接 查看 。 为 了 方便 调试 ，TensorFlow 提供 了 export meta_ graph 函数 ， 这 个 函数 
支持 以 json 格式 导出 MetaGraphDef Protocol Buffer。 以 下 代码 展示 了 如 何 使 用 这 个 函数 。 


import tensorflow as tf 


# 定义 变量 相 加 的 计算 。 
v1 = tf,.Variable (tf.constant (1.0, shape=[1]), name="v1") 
V2 = tfi.Variable (tf.constant(2.0, shape=[1]), name="v2") 
resultl = vi + v2 


saver = tf.train.Saver() 

# 通过 export meta graph 函数 导出 TensorFlow 计算 图 的 元 图 ， 并 保存 为 json 格式 。 

saver.export meta graph("/path/to/model.ckpt.meda.json", as text=True) 

通过 上 面 给 出 的 代码 ， 可 以 将 5.4.1 小 节 中 的 计算 图 元 图 以 json 的 格式 导出 并 存储 在 
model.ckpt.meta.json 文件 中 。 下 文 将 结合 model.ckpt.meta.json 文件 具体 介绍 TensorFlow 元 
图 中 存储 的 信息 。 


meta info_def 属性 


meta_info_def 属性 是 通过 MetaInfoDef 定义 的 ， 它 记录 了 TensorFlow 计算 图 中 的 元 数 
据 以 及 TensorFlow 程序 中 所 有 使 用 到 的 运算 方法 的 信息 。 下 面 是 MetaInfoDef Protocol 
Buffer 的 定义 : 
message MetaInfoDef 1{ 
string meta graph version = 1; 
OpList stripped op list = 2; 
google.protobuf.Any any info = 3; 
repeated string tags = 4; 
} 
TensorFlow 计算 图 的 元 数据 包括 了 计算 图 的 版 本 号 (meta_graph_version 属性 ) 以 及 用 
户 指 定 的 一 些 标签 (tags 属性 )。 如 果 没 有 在 saver 中 特殊 指定 ， 那 么 这 些 属性 都 默认 为 空 。 
在 model.ckpt.meta.json 文件 中 , meta info_ def 属性 里 只 有 stripped_op list 属性 是 不 为 空 的 。 
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stripped_ op_list 属性 记录 了 TensorFlow 计算 图 上 使 用 到 的 所 有 运算 方法 的 信息 。 注意 
stripped_op_list 属性 保存 的 是 TensorFlow 运算 方法 的 信息 ， 所 以 如 果 某 一 个 运算 在 
TensorFlow 计算 图 中 出 现 了 多 次 ， 那 么 在 stripped_ op list 也 只 会 出 现 一 次 。 比 如 在 
model.ckpt.meta.json 文件 的 stripped_op_list 属性 中 只 有 一 个 Variable 运算 , 但 这 个 运算 在 程 
序 中 被 使 用 了 两 次 。stripped_op_list 属性 的 类 型 是 OpList。OpList 类 型 是 一 个 OpDef 类 型 
的 列表 ， 以 下 代码 给 出 了 OpDef 类 型 的 定义 : 


message OpDef 1{ 
string name = 1; 
repeated ArgDef input arg = 2; 
repeated ArgDef output arg = 3; 
repeated AttrDef attr = 4; 


string summary = 5; 
string description = 6; 
OpDeprecation deprecation = 8; 


bool is commutative = 18; 

bool is aggregate = 16 

bool is stateful = 17; 

bool allows uninitialized input = 19; 

}; 

OpDef 类 型 中 前 四 个 属性 定义 了 一 个 运算 最 核心 的 信息 。OpDef 中 的 第 一 个 属性 name 
定义 了 运算 的 名 称 ， 这 也 是 一 个 运算 唯一 的 标识 符 。 在 TensorFlow 计算 图 元 图 的 其 他 属性 
中 ， 比 如 下 面 将 要 介绍 的 GraphDef 属性 ， 将 通过 运算 名 称 来 引用 不 同 的 运算 。OpDef 的 第 
二 和 第 三 个 属性 为 input arg 和 output arg， 它 们 定义 了 运算 的 输入 和 输出 。 因 为 输入 输出 
都 可 以 有 多 个 ， 所 以 这 两 个 属性 都 是 列表 (repeated)。 第 四 个 属性 attr 给 出 了 其 他 的 运算 
参数 信息 。 在 model.ckpt.meta.json 文件 中 总 共 定 义 了 7 个 运算 ， 下 面 将 给 出 比较 有 代表 性 
的 一 个 运算 来 辅助 说 明 OpDef 的 数据 结构 。 

SR 本 

name: "Add" 
input arg { 

name: "x" 

type TattI2 “TT”" 
} 
input arg { 

name: "y" 

type "attr: IT- 
} 
output arg I{ 
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name: "2z" 
Eypesattrs oT 
} 
attr { 
站 和 me 
type: "type" 
allowed values 1 
list { 
type: DT HALF 
type: DT FLOAT 


} 
} 
上 面 给 出 了 名 称 为 Add 的 运算 。 这 个 运算 有 2 个 输入 和 1 个 输出 ， 输 入 输出 属性 都 指 
定 了 属性 type_attr, 并 且 这 个 属性 的 值 为 T。. 在 OpDef 的 attr 属性 中 , 必须 要 出 现 名 称 (name) 
为 T 的 属性 .以 上 样 例 中 , 这 个 属性 指定 了 运算 输入 输出 允许 的 参数 类 型 (allowed values )。 


graph_def 属性 

graph_def 属性 主要 记录 了 TensorFlow 计算 图 上 的 节点 信息 。TensorFlow 计算 图 的 每 一 
个 节点 对 应 了 TensorFlow 程序 中 的 一 个 运算 。 因 为 在 meta_info_def 属性 中 已 经 包含 了 所 有 
运算 的 具体 信息 ， 所 以 graph_def 属性 只 关注 运算 的 连接 结构 。graph def 属性 是 通过 
GraphDef Protocol Buffer 定义 的 ，GraphDef 主要 包含 了 一 个 NodeDef 类 型 的 列表 。 以 下 代 
码 给 出 了 GraphDef 和 NodeDef 类 型 中 包含 的 信息 : 

message GraphDef 1{ 

repeated NodeDef node = 1; 


VersionDef versions = 4: 
)} 


message NodeDef { 
string name = 工 ; 
string op = 2; 
repeated string input = 3; 
string device = 4; 
map<string, AttrValue> attr = 5; 
}; 


GraphDef 中 的 versions 属性 比较 简单 ， 它 主要 存储 了 TensorFlow 的 版 本 号 。GraphDef 
的 主要 信息 都 存在 node 属性 中 ， 它 记录 了 TensorFlow 计算 图 上 所 有 的 节点 信息 。 和 其 他 
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属性 类 似 ，NodeDef 类 型 中 有 一 个 名 称 属性 name， 它 是 一 个 节点 的 唯一 标识 符 。 在 
TensorFlow 程序 中 可 以 通过 节点 的 名 称 来 获取 相应 的 节点 。NodeDef 类 型 中 的 op 属性 给 出 
了 该 节点 使 用 的 TensorFlow 运算 方法 的 名 称 , 通过 这 个 名 称 可 以 在 TensorFlow 计算 图 元 图 
的 meta_info_def 属性 中 找到 该 运算 的 具体 信息 。 

NodeDef 类 型 中 的 input 属性 是 一 个 字符 串 列表 ， 它 定义 了 运算 的 输入 。input 属性 中 
每 个 字符 串 的 取 值 格式 为 node:src_output, 其 中 node 部 分 给 出 了 一 个 节点 的 名 称 ,src_outpnut 
部 分 表明 了 这 个 输入 是 指定 节点 的 第 几 个 输出 。 当 src_output 为 0 时， 可 以 省 略 :src_outpnut 
这 个 部 分 。 比 如 node:0 表示 名 称 为 node 的 节点 的 第 一 个 输出 ， 它 也 可 以 被 记 为 node。 

NodeDef 类 型 中 的 device 属性 指定 了 处 理 这 个 运算 的 设备 。 运 行 TensorFlow 运算 的 设 
备 可 以 是 本 地 机 器 的 CPU 或 者 GPU， 也 可 以 是 一 台 远 程 的 机 器 CPU 或 者 GPU。 第 10 章 
将 具体 介绍 如 何 指定 运行 TensorFlow 运算 的 设备 。 当 device 属性 为 空 时 ，TensorFlow 在 运 
行 时 会 自动 选取 一 个 最 合适 的 设备 来 运行 这 个 运算 。 最 后 NodeDef 类 型 中 的 attr 属性 指定 
了 和 当前 运算 相关 的 配置 信息 。 下 面 列举 了 model.ckpt.meta.json 文件 中 的 一 些 计算 节点 来 
更 加 具体 地 介绍 graph_def 属性 。 

graph def { 

node 1 

name: "vi1" 

op: "Variable" 

attr 4 
key: " output shapes" 
Value { 

全- 

} 

} 


attr { 
key: "dtype" 
Value 1 


type: DT FLOAT 
} 
} 


} 


node { 
name: "add" 
op: "Add" 


input;: "vl/read" 
input: "v2/read" 
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node | 
name: "save/control dependency" 
bop: "Identity" 


} 
versions { 
producer: 9 
} 
} 
上 面 给 出 了 model.ckpt.meta.json 文件 中 graph_def 属性 里 比较 有 代表 性 的 几 个 节点 。 第 
一 个 节点 给 出 的 是 变量 定义 的 运算 。 在 TensorFlow 中 变量 定义 也 是 一 个 运算 ， 这 个 运算 的 
名 称 为 v1 (name: "v1")， 运 算 方 法 的 名 称 为 Variable (op: "Variable")。 定 义 变量 的 运算 可 
以 有 很 多 个 , 于 是 在 NodeDef 类 型 的 node 属性 中 可 以 有 多 个 变量 定义 的 节点 。 但 定义 变量 
的 运算 方法 只 用 到 了 一 个 ， 于 是 在 MetaInfoDef 类 型 的 stripped op list 属性 中 只 有 一 个 名 
称 为 Variable 的 运算 方法 。 除 了 指定 计算 图 中 节点 的 名 称 和 运算 方法 ，NodeDef 类 型 中 还 
定义 了 运算 相关 的 属性 。 在 节点 vl 中 ，attr 属性 指定 了 这 个 变量 的 维度 以 及 类 型 。 
给 出 的 第 二 个 节点 是 代表 加 法 运算 的 节点 。 它 指定 了 2 个 输入 ， 一 个 为 vl/read， 田 
一 个 为 v2/read。 其 中 vl/read 代表 的 节点 可 以 读 取 变量 v1 的 值 ,因为 vl 的 值 是 节点 vl/read 
的 第 一 个 输出 ， 所 以 后 面 的 :0 就 可 以 省 略 了 。v2/read 也 类 似 的 代表 了 变量 v2 的 取 值 。 以 
上 样 例 文件 中 给 出 的 最 后 一 个 名 称 为 save/control dependency， 该 节点 是 系统 在 完成 
TensorFlow 模型 持久 化 过 程 中 自动 生成 的 一 个 运算 。 在 样 例文 件 的 最 后 ， 属 性 versions 给 
出 了 生成 model.ckpt.meta.json 文件 时 使 用 的 TensorFlow 版 本 号 。 


saver_def 属性 


saver def 属性 中 记录 了 持久 化 模型 时 需要 用 到 的 一 些 参 数 , 比如 保存 到 文件 的 文件 名 、 
保存 操作 和 加 载 操 作 的 名 称 以 及 保存 频率 、 清 理 历 史记 录 等 。saver def 属性 的 类 型 为 
SaverDef， 其 定义 如 下 。 


message SaverDef { 
string filename tensor name = 1; 
string save tensor name = 2; 
string restore op name = 3; 
int32 max to keep = 4; 
bool sharded = 5; 
float keep checkpoint every n hours = 6; 


enum CheckpointFormatVersion 1{ 
LEGACY = 0; 
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一 
V2 Ze 
} 


CheckpointFormatVersion Version = 7; 


] 
下 面 给 出 了 model.ckpt.meta.json 文件 中 saver def 属性 的 内 容 。 


saver def { 
filename tensor name: "save/Const:0" 
save tensor name: "save/control dependency:0" 
restore op name: "save/restore all" 
max to keep: 5 
keep checkpoint every n hours: 10000.0 

} 


filename_tensor name 属性 给 出 了 保存 文件 名 的 张 量 名 称 ， 这 个 张 量 就 是 节操 
save/Const 的 第 一 个 输出 。save tensor name 属性 给 出 了 持久 化 TensorFlow 模型 的 运算 所 对 
应 的 节点 名 称 。 从 上 面 的 文件 中 可 以 看 出 ， 这 个 节点 就 是 在 graph_def 属性 中 给 出 的 
save/control dependency 节点 。 和 持久 化 TensorFlow 模型 运算 对 应 的 是 加 载 TensorFlow 模 
型 的 运算 ， 这 个 运算 的 名 称 由 restore op name 属性 指定 。max to keep 属性 和 
keep_checkpoint every_n hours 属性 设 定 了 tftrain.Saver 类 清理 之 前 保存 的 模型 的 策略 。 比 
如 当 max to_keep 为 5 的 时 候 ， 在 第 六 次 调用 saversave 时 ， 第 一 次 保存 的 模型 就 会 被 自动 
删除 。 通 过 设置 keep _ checkpoint every n hours, 每 nn 小 时 可 以 在 max to keep 的 基础 上 多 
保存 一 个 模型 。 

collection_def 属性 

在 TensorFlow 的 计算 图 (tf.Graph) 中 可 以 维护 不 同 集合 ， 而 维护 这 些 集 合 的 底层 实现 
就 是 通过 collection def 这 个 属性 。collection def 属性 是 一 个 从 集合 名 称 到 集合 内 容 的 映射 ， 


其 中 集合 名 称 为 字符 串 ， 而 集合 内 容 为 CollectionDef Protocol Buffer。 以 下 代码 给 出 了 
CollectionDef 类 型 的 定义 。 


message CollectionDef 1{ 
message NodeList 1 
repeated string Value = 1; 


} 


message BytesList { 
repeated bytes Value = 1; 
} 


message Int64List 1 
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repeated int64 value = 1 [packed = true]; 
} 
message FloatList ({ 

repeated float value = 1 [packed = truel]; 


} 


message AnyList { 
repeated google.protobuf.Any value = 1; 
} 


oneof kind 1 
NodeList node list = 1; 
BytesList bytes list = 
Int64List int64 list = 3; 
FloatList float list = 4; 
AnyList any list = 95; 

} 

} 


通过 上 面 的 定义 可 以 看 出 , TensorFlow 计算 图 上 的 集合 主要 可 以 维护 4 类 不 同 的 集合 。 
NodeList 用 于 维护 计算 图 上 节点 的 集合 。BytesList 可 以 维护 字符 串 或 者 系列 化 之 后 的 
Procotol Buffer 的 集合 。 比 如 张 量 是 通过 Protocol Buffer 表示 的 ， 而 张 量 的 集合 是 通过 
BytesList 维护 的 ， 我 们 将 在 model.ckpt.meta.json 文件 中 看 到 具体 样 例 。Int64List 用 于 维护 
整数 集合 ，FloatList 用 于 维护 实数 集合 。 下 面 给 出 了 model.ckpt.meta.json 文件 中 
collection def 属性 的 内 容 。 


collection aqef { 
key: "trainable variables" 
Value { 
bytes list { 
value: "\n\004v1:0\022\tvl/Assign\032\tvl/read:0" 
value: “\n\004v2:0\022\tv2/Assign\032\tv2/read:0" 
} - 
} 
} 
collection def { 
key: "variables" 
Value I 
bytes list { 
value: "\n\004vl1l:0\022\tvl/Assign\032\tvl/read:0" 
value: "\n\004v2:0\022\tv2/Assign\032\tv2/read:0" 
} 
} 
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从 上 面 的 文件 可 以 看 出 样 例 程 序 中 维护 了 两 个 集合 。 一 个 是 所 有 变量 的 集合 ， 这 个 集 
合 的 名 称 为 variables。 男 外 一 个 是 可 训练 变量 的 集合 ， 名 为 trainable_variables。 在 样 例 程 
序 中 ， 这 两 个 集合 中 的 元 素 是 一 样 的 ， 都 是 变量 vl 和 v2。 它们 都 是 系统 自动 维护 的 ”。 

通过 对 MetaGraphDef 类 型 中 主要 属性 的 讲解 ， 本 小 节 已 经 介绍 了 TensorFlow 模型 持 
入 化 得 到 的 第 一 个 文件 中 的 内 容 . 除 了 持久 化 TensorFlow 计算 图 的 结构 ,持久 化 TensorFlow 
中 变量 的 取 值 也 是 非常 重要 的 一 个 部 分 。5.4.1 小 节 中 使 用 共 Saver 得 到 的 model.ckpt 文件 
就 保存 了 所 有 变量 的 取 值 。 这 个 文件 是 通过 SSTable 格式 存储 的 ， 可 以 大 致 理解 为 就 是 一 
个 (key，value) 列表 。 

model.ckpt 文件 中 列表 的 第 一 行 描述 了 文件 的 元 信息 ， 比 如 在 这 个 文件 中 存储 的 变量 
列表 。 列 表 剩 下 的 每 一 行 保存 了 一 个 变量 的 片段 ， 变 量 片 段 的 信息 是 通过 SavedSlice 
Protocol Buffer 定义 的 。SavedSlice 类 型 中 保存 了 变量 的 名 称 、 当 前 片段 的 信息 以 及 变量 取 
值 。TensroFlow 提供 了 tf.train.NewCheckpointReader 类 来 查看 model.ckpt 文件 中 保存 的 变 
量 信息 。 以 下 代码 展示 了 如 何 使 用 萎 train.NewCheckpointReader 类 。 


import tensorflow as tf 


# tf.train.NewCheckpointReader 可 以 读 取 checkpoint 文件 中 保存 的 所 有 变量 。 
reader = tf.train.NewCheckpointReader('/path/to/model/model .ckpt') 


# 获取 所 有 变量 列表 。 这 个 是 一 个 从 变量 名 到 变量 维度 的 字典 。 

all variabjes = reader.get variable to Shape _ map() 

for variable name in all variables: 
# variable name 为 变量 名 称 ，all] variables[variable name] 为 变量 的 维度 。 
print variable name, all variables[variable name] 


# 获取 名 称 为 vi 的 变量 的 取 值 。 


Print "Value for variable V1 is ", reader.get 七 EnDSOE ("VI7") 


这 个 程序 将 输出 : 

vi [1] # 变量 v1 的 维度 为 [1]。 
v2 [1] # 变量 v2 的 维度 为 [1]。 
Value for variable vl is [ 1.] # 变量 v1 的 取 值 为 1。 


最 后 一 个 文件 的 名 字 是 固定 的 ， 叫 checkpoint。 这 个 文件 是 给 train.Saver 类 自动 生成 且 
自动 维护 的 。 在 checkpoint 文件 中 维护 了 由 一 个 让 train.Saver 类 持久 化 的 所 有 TensorFlow 


Q@ 第 3 章 中 有 更 加 详细 的 关于 TensorFlow 自动 维护 的 集合 的 介绍 。 
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模型 文件 的 文件 名 。 当 某 个 保存 的 TensorFlow 模型 文件 被 删除 时 ， 这 个 模型 所 对 应 的 文件 
名 也 会 从 checkpoint 文件 中 删除 。checkpoint 中 内 容 的 格式 为 CheckpointState Protocol 
Buffer， 下 面 给 出 了 CheckpointState 类 型 的 定义 。 
message CheckpointState I{ 
string model checkpoint path = 1; 


repeated string all model checkpoint paths = 2; 
} 


model] checkpoint path 属性 保存 了 最 新 的 TensorFlow 模型 文件 的 文件 名 。 
all model checkpoint paths 属性 列 出 了 当前 还 没有 被 删除 的 所 有 TensorFlow 模型 文件 的 文 
件 名 。 下 面 给 出 了 通过 5.4.1 节 中 样 例 程序 生成 的 checkpoint 文件 。 


model checkpoint path: "/path/to/mSodel/model .ckpt" 
all model checkpoint paths: "/path/to/model/model .ckpt" 


5.5 TensorFlow 最 佳 实践 样 例 程序 


在 5.2.1 小 节 中 已 经 给 出 了 一 个 完整 的 TensorFlow 程序 来 解决 MNIST 问题 。 然而 这 个 
程序 的 可 扩展 性 并 不 好 。 如 在 5.3 节 中 提 到 的 ， 计 算 前 向 传播 的 函数 需要 将 所 有 变量 都 传 
入 ， 当 神经 网 络 的 结构 变 得 更 加 复杂 、 参 数 更 多 时 ， 程 序 可 读 性 会 变 得 非常 差 。 而 且 这 种 
方式 会 导致 程序 中 有 大 量 的 见 余 代码 ， 降 低 编程 的 效率 。5.2.1 小 节 给 出 的 程序 的 另外 一 个 
问题 是 没有 持久 化 训练 好 的 模型 。 当 程序 退出 时 ， 训 练 好 的 模型 也 就 被 无 法 再 使 用 了 ， 这 
导致 得 到 的 模型 无 法 被 重用 。 更 严重 的 问题 是 , 一般 神经 网 络 模 型 训练 的 时 间 都 比较 长 ， 
少 则 几 个 小 时 ， 多 则 几 天 甚至 几 周 。 如 果 在 训练 过 程 中 程序 死机 了， 那么 没有 保存 训练 的 
中 间 结 果 会 浪费 大 量 的 时 间 和 资源 。 所 以 ， 在 训练 的 过 程 中 需要 每 隔 一 段 时 间 保 存 一 次 模 
型 训练 的 中 间 结 果 。 

结合 5.3 节 中 介绍 的 变量 管理 机 制 和 5.4 节 中 介绍 的 TensorFlow 模型 持久 化 机 制 ， 本 
节 中 将 介绍 一 个 TensorFlow 训练 神经 网 络 模型 的 最 佳 实践 。 将 训练 和 测试 分 成 两 个 独立 的 
程序 ， 这 可 以 使 得 每 一 个 组 件 更 加 灵活 。 比 如 训练 神经 网 络 的 程序 可 以 持续 输出 训练 好 的 
模型 ， 而 测试 程序 可 以 每 隔 一 段 时 间 检 验 最 新 模型 的 正确 率 ， 如 果 模 型 效果 更 好 ， 则 将 这 
个 模型 提供 给 产品 使 用 。 除 了 将 不 同 功 能 模块 分 开 ， 本 节 还 将 前 向 传播 的 过 程 抽象 成 一 个 
单独 的 库 函 数 。 因 为 神经 网 络 的 前 向 传播 过 程 在 训练 和 测试 的 过 程 中 都 会 用 到 ， 所 以 通过 
库 函 数 的 方式 使 用 起 来 既 可 以 更 加 方便 ， 又 可 以 保证 训练 和 测试 过 程 中 使 用 的 前 向 传播 方 
法 一 定 是 一 致 的 。 

本 节 将 提供 重 构 之 后 的 程序 来 解决 MNIST 问 题 。. 重 构 之 后 的 代码 将 会 被 拆 成 3 个 程序 ， 
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第 一 个 是 mnist inference.py， 它 定义 了 前 向 传播 的 过 程 以 及 神经 网 络 中 的 参数 。 第 二 个 是 
mnist train.py， 它 定义 了 神经 网 络 的 训练 过 程 。 第 三 个 是 mnist_eval.py， 它 定义 了 测试 过 


程 。 
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以 下 代码 给 出 了 mnist inference.py 中 的 内 容 。 


= CoOdings Vtf=8 = 二 一 
import tensorflow as tf 


# 定义 神经 网 络 结构 相关 的 参数 。 
INPUT NODE = 784 

OUTPUT NODE = 
LAYER1 NODE = 500 


# 通过 tf.get variable 函数 来 获取 变量 。 在 训练 神经 网 络 时 会 创建 这 些 变量 ; 在 测试 时 会 通 
# 过 保存 的 模型 加 载 这 些 变量 的 取 值 。 而 且 更 加 方便 的 是 ， 因 为 可 以 在 变量 加 载 时 将 滑动 平均 变量 
# 重 命名 ， 所 以 可 以 直接 通过 同样 的 名 字 在 训练 时 使 用 变量 自身 ， 而 在 测试 时 使 用 变量 的 滑动 平 
# 均值 。 在 这 个 函数 中 也 会 将 变量 的 正则 化 损失 加 入 损失 集合 。 
def get weight variable(shape, regularizer): 
weights = tf.get variable | 
"weights", shape, 
initializer=tf.truncated normal initializer (stddev=0.1)) 


# 当 给 出 了 正则 化 生成 函数 时 ， 将 当前 变量 的 正则 化 损失 加 入 名 字 为 losses 的 集合 。 在 这 里 
# 使 用 了 add to _collection 函数 将 一 个 张 量 加 入 一 个 集合 , 而 这 个 集合 的 名 称 为 losses。 
# 这 是 自 定义 的 集合 ， 不 在 TensorFlow 自动 管理 的 集合 列表 中 。 
if regularizer != None: 

tf.add to collection('losses', regularizer (weights)) 
return weights 


# 定义 神经 网 络 的 前 向 传播 过 程 。 
def inference (inpPut tensor, regularizer): 
# 声明 第 一 层 神经 网 络 的 变量 并 完成 前 向 传播 过 程 。 
with tf.variable scope('layerl'): 
# 这 里 通过 tf.get variable 或 tf.Variable 没有 本 质 区 别 ， 因 为 在 训练 或 是 测试 中 
# 没有 在 同一 个 程序 中 多 次 调用 这 个 函数 。 如 果 在 同一 个 程序 中 多 次 调用 ， 在 第 一 次 调用 
# 之 后 需要 将 reuse 参数 设置 为 True。 
weights = get weight variable( 
[INPUT NODE, LAYER]1 NODE], regularizer) 
biases = tf.get Variable( 
"biases", [LAYER]1 NODE], 
initializer=tf.constant initializer(0.0)) 
layerl1 = tf.nn.relul(ltf.matmul (input tensor, weights) + biases) 


# 类 似 的 声明 第 二 层 神 经 网 络 的 变量 并 完成 前 向 传播 过 程 。 


with tf.variable scope('layer2'): 
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weights = get weight Variable 

[LAYER]1 NODE, OUTPUT NODE], regularizer) 
biases = tf.get Variable( 

"biases", [OUTPUT NODE], 

initializer=tf.constant initializer(0.0)) 
layer2 = tf.matmul (layerl, weights) + biases 


# 返回 最 后 前 向 传播 的 结果 。 


return layer2 


在 这 段 代 码 中 定 了 神经 网 络 的 前 向 传播 算法 。 无 论 是 训练 时 还 是 测试 时 ， 都 可 以 直接 
调用 inference 这 个 函数 ， 而 不 用 关心 具体 的 神经 网 络 结构 。 使 用 定义 好 的 前 向 传播 过 程 ， 
以 下 代码 给 出 了 神经 网 络 的 训练 程序 mnist_train.py。 


oun tt = 
import os 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


# 加 载 mnist inference.py 中 定义 的 常量 和 前 向 传播 的 函数 。 


import mnist inference 


# 配置 神经 网 络 的 参数 。 

BATCH SIZE = 100 

LEARNING RATE BASE = 0.8 
LEARNING RATE DECAY = 0.99 
REGULARAZTION RATE = 0.0001 
TRAINING STEPS = 30000 

MOVING AVERAGE DECAY = 0.99 

# 模型 保存 的 路 径 和 文件 名 。 

MODEL SAVE PATH = "/path/to/model/" 
MODEL NAME = "model.ckpt" 


def train (mist): 
# 定义 输入 输出 placeholder。 
X = tf.placeholder!( 
tf.float32, [None, mnist inference.INPUT NODE], name='x-input') 
y_ = tf.placeholder( 
tf.float32, [None, mnist inference.OUTPUT NODE], name='y-input'’) 


regularizer = tf.contrib.layers.12 regularizer (REGULARAZTION RATE) 
# 直接 使 用 mnist inference.py 中 定义 的 前 向 传播 过 程 。 


Y = mist inference.inference(x, regularizer) 
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global step = tf.Variable(0, trainable=False) 


# 和 5.2.1 小 节 样 例 中 类 似 地 定义 损失 函数 、 学 习 率 、 滑 动 平均 操作 以 及 训练 过 程 。 


variable averages = tf.train.ExponentialMovingAverage ( 


MOVING AVERAGE DECAY, global step) 


variables averages op = variable averages.apply! 


tf.trainable variables ()) 


cross entropy = tf.nn.sparse softmax cross entropy with logits ( 


y, tf.argmax(y , 1)) 


cross entropy mean = tf.reduce meanl(cross entropy) 
loss = cross entropy mean + tf.add n(tf.get collection('losses')) 
learning rate = tf.train.exponential decayl 


LEARNING RATE BASE, 

global step, 

mist.train.num examples / BATCH SIZE, 
LEARNING RATE DECAY) 


train step = tf.,train.GradientDescentOptimizer (learning rate)\ 


.minimize(loss, global step=global step) 


with tf.control dependencies ([train step, variables averages op]): 


train op = tf.no op (name='train’) 


# 初始 化 TensorFlow 持久 化 类 。 
Saver = tf.train,.Saver!() 
with tf.Session() as sess: 


tf.initialize all variables() :zun() 


# 在 训练 过 程 中 不 再 测试 模型 在 验证 数据 上 的 表现 ， 验 证 和 测试 的 过 程 将 会 有 一 个 独 
# 并 的 程序 来 完成 。 
for i in range (TRAINING STEPS): 
xs, ys = mnist,.train.next batch (BATCH SIZE) 
7 loss Value step = sess.run([train op, loss, ‘global "steplr 
feed dict={x: XSs7 VY : ys}) 
# 每 1000 人 
if i 名 1000 = : 
# 输出 当前 的 训练 情况 。 这 里 中 ‘输出 了 模型 在 当前 训练 batch 上 的 损失 函 
# 数 大 小 。 通 过 损失 函数 的 大 小 可 以 大 概 了 解 训练 的 情况 。 在 验证 数据 集 上 的 
# 正确 率 信息 会 有 一 个 单独 的 程序 来 生成 。 
print ("After %d training step(s), loss on training " 
"batch is %g." % (step, loss value)) 
# 保存 当前 的 模型 。 注 意 这 里 给 出 了 global step 参数 ， 这 样 可 以 让 每 个 被 
# 保存 模型 的 文件 名 末尾 加 上 训练 的 轮 数 ， 比 如 “model .ckpt-1000” 表 示 
# 训练 1000 轮 之 后 得 到 的 模型 。 
saver.savel 
sess, Os.path.join(MODEL SAVE PATH MODEL NAME), 
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global step=global step) 


def main (argv=None): 
mist = input data.read data sets("/tmp/data", one hot=True) 
train (mnist) 


运行 上 面 的 程序 ， 可 以 得 到 类 似 下 面 的 结果 。 


~/mnist$ python mnist train.py 

Extracting /tmp/data/train-images-idx3-ubyte.gz 

Extracting /tmp/data/train-labels-idxl-ubyte.gz 

Extracting /tmp/data/t1i0k-images-idx3-ubyte.gz 

Extracting /tmp/data/ti0k-labels-idxl-ubyte.gz 

After 1 training step(s), loss on training batch is 3.32075. 
After 1001 training step(s), loss on training batch is 0.241039. 
After 2001 training step(s), loss on training batch is 0.227391. 
After 3001 training step(s), loss on training batch is 0.138462. 
After 4001 training step(s), loss on training batch is 0.132074. 
After 5001 training step(s), loss on training batch is 0.103472. 


在 新 的 训练 代码 中 ， 不 再 将 训练 和 测试 跑 在 一 起 。 训 练 过程 中 ,每 1000 轮 输出 一 次 在 
当前 训练 batch 上 损失 函数 的 大 小 来 大 致 估计 训练 的 效果 。 在 上 面 的 程序 中 ， 每 1000 轮 保 
存 一 次 训练 好 的 模型 ， 这 样 可 以 通过 一 个 单独 的 测试 程序 ， 更 加 方便 地 在 滑动 平均 模型 上 
做 测试 。 以 下 代码 给 出 了 测试 程序 mnist_eval.py。 

# ~*~ Coding: utf=8, =*= 

import time 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


# 加 载 mnist inference.py 和 mnist _ train.py 中 定义 的 常量 和 函数 。 
import mist inference 
import mnist train 


# 每 10 秒 加 载 一 次 最 新 的 模型 ， 并 在 测试 数据 上 测试 最 新 模型 的 正确 率 。 
EVAL INTERVAL SECS = 10 


def evaluate (mnist): 
with tf.Graph() .as default() as 9g: 
# 定义 输入 输出 的 格式 。 
x = tf.placeholder( 
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tf.float32, [None, mnist inference.INPUT NODE], name='x~-input') 
y_ = tf.placeholder! 
tf.float32, [None; mnist inference.OUTPUT NODE], name='y-input'") 
validate feed = {x: mnist.validation.images, 
y_:mnist.validation. labels]} 


# 直接 通过 调用 封装 好 的 函数 来 计算 前 向 传播 的 结果 。 因 为 测试 时 不 关注 正则 化 损失 的 值 ， 
# 所 以 这 里 用 于 计算 正则 化 损失 的 函数 被 设置 为 None。 


Y = mnist inference.inference(x, None) 


# 使 用 前 向 传播 的 结果 计算 正确 率 。 如 果 需 要 对 未 知 的 样 例 进 行 分 类 ， 那 么 使 用 

# tf.argmax(y，1) 就 可 以 得 到 输入 样 例 的 预测 类 别 了 。 

Correct prediction = tf.equal (tf.argmax(y, 1), tf.argmax(y , 1)) 
accuracy = tf.reduce mean (tft.cast (correct prediction, tf.float32)) 


# 通过 变量 重合 名 的 方式 来 加 载 模型 ， 这 样 在 前 向 传播 的 过 程 中 就 不 需要 调用 求 滑动 平均 . 
# 的 函数 来 获取 平均 值 了 。 这 样 就 可 以 完全 共用 mnist inference.py 中 定义 的 
# 前 向 传播 过 程 。 
variable averages = tf.train.ExponentialMovingAverage( 

mnist train.MOVING AVERAGE DECAY) 
variables to restore = Variable averages.variables to restore() 
saver = tf.train.Saverl(variables to restore) 


# 每 隔 EVAL_INTERVRAL_SECS 秒 调用 一 次 计算 正确 率 的 过 程 以 检测 训练 过 程 中 正确 率 的 
# 变化 。 
while True: 
with tf.Session() as sess: 
# tf.train.get checkpoint state 函数 会 通过 checkpoint 文件 自动 
# 找到 目录 中 最 新 模型 的 文件 名 。 
ckpt = tf.train.get checkpoint state( 
mnist train.MODEL SAVE PATH) 
if ckpt and ckpt.model checkpoint path: 
# 加 载 模 型 。 
saver.restorel(sess; ckpt.model checkpoint path): 
# 通过 文件 名 得 到 模型 保存 时 迭代 的 轮 数 。 
global step = ckpt.model checkpoint path\ 
.Split('/') [-1] .split('’-') [~-1] 
accuracy Score = sess.runl(laccuracy, 
feed dict=validate feed) 
print ("After $%s training step(s), validation " 
"accuracy = %g" % (global step, accuracy score)) 
else: 
print('No checkpoint file found') 
return 
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time.sleep (EVAL INTERVAL SECS) 


def main(argv=None): 
mnist = input data.read data sets("/tmp/data", one hot=True) 
evaluate (mnist) 


bi Mam = mad Vs 
tf.app.run't() 

上 面 给 出 的 mnist_eval.py 程序 会 每 隔 10 秒 运行 一 次 ,每 次 运行 都 是 读 取 最 新 保存 的 模 
型 ,并 在 MNIST 验证 数据 集 上 计算 模型 的 正确 率 。 如 果 需 要 离线 预测 未 知 数据 的 类 别 〈 比 
如 这 个 样 例 程序 可 以 判断 手写 体 数 字 图 片 中 所 包含 的 数字 ), 只 需要 将 计算 正确 率 的 部 分 改 
为 答案 输出 即 可 。 运 行 mnist_eval.py 程序 可 以 得 到 类 似 下 面 的 结果 。 注 意 因为 这 个 程序 每 
10 秒 自 动 运行 一 次 ， 而 训练 程序 不 一 定 每 10 秒 输出 一 个 新 模型 ， 所 以 在 下 面 的 结果 中 会 
发 现 有 些 模型 被 测试 了 多 次 。 一 般 在 解决 真实 问题 时 ， 不 会 这 么 频繁 地 运行 评测 程序 。 

~/mnist$ python mnist eval.py 

Extracting /tmp/data/train-images-idx3-ubyte.gz 

Extracting /tmp/data/train-labels-idxl-ubyte.gz 


Extracting /tmp/data/tl0k~-images-idx3-ubyte.gz 
Extracting /tmp/data/t1i0k-labels-idxl-ubyte.gz 


After 1 training step(s), test accuracy = 0.1282 

After 1001 training step(s), validation accuracy = 0.9769 
After 1001 training step(s), validation accuracy = 0.9769 
After 2001 training step(s), validation accuracy = 0.9804 
After 3001 training step(s), validation accuracy 0.982 

After 4001 training step(s), validation accuracy = 0.983 

After 5001 training step(s), validation accuracy 0.9829 
After 6001 training step(s), validation accuracy = 0.9832 
After 6001 training step(s), validation accuracy 0.9832 

小 结 


本 章 通 过 MNIST 数据 集 验证 了 第 4 章 介 绍 的 神经 网 络 优化 方法 ， 同 时 也 给 出 了 使 用 
TensorFlow 解决 MNIST 问题 的 最 佳 实践 样 例 程 序 。 首 先 在 本 章 的 5$.1 节 中 大 致 讲解 了 
MNIST 数据 集 的 基本 情况 ， 也 介绍 了 TensorFlow 提供 的 一 个 类 让 处 理 MNIST 数据 集 更 加 
方便 。 然 后 5.2 节 给 出 了 一 个 完整 的 TensorFlow 程序 来 实现 第 4 章 中 提 到 的 所 有 优化 方法 。 
通过 此 程序 , 对 比 了 不 同 优化 算法 对 模型 在 测试 数据 集 上 正确 率 的 影响 。 在 MNIST 数据 集 
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上 ， 可 以 明显 地 观察 到 神经 网 络 的 结构 对 最 终结 果 的 影响 是 巨大 的 ， 使 用 了 激活 函数 和 隐 
藏 层 的 神经 网 络 要 远 远 好 于 没有 激活 函数 或 者 没有 隐藏 层 的 神经 网 络 。 下 面 的 第 6 章 将 介 
绍 神经 网 络 中 一 个 非常 常用 的 结构 一 一 卷 积 网 络 。 通 过 卷 积 网 络 可 以 进一步 提高 神经 网 络 
模型 在 MNIST 数据 集 上 的 正确 率 。 对 于 其 他 的 优化 方法 ， 虽 然 在 MNIST 数据 集 上 对 于 正 
确 率 的 提高 有 限 , 但 是 通过 进一步 的 分 析 , 验证 了 它们 确实 可 以 解决 第 4 章 中 提 到 的 问题 。 
这 一 节 也 提出 了 在 一 个 更 加 复杂 数据 集 上 ， 这 些 优化 算法 可 以 降低 大 约 10% 的 错误 率 。 

在 53 和 5.4 节 中 提出 了 5.2 节 中 TensorFlow 程序 实现 的 一 些 不 足 之 处 ， 并 介绍 了 
TensorFlow 的 最 佳 实践 来 解决 这 些 不 足 。5$.3 节 指 出 当 神 经 网 络 的 结构 变 得 更 加 复杂 、 变 量 
更 多 之 后 ,通过 引用 的 方式 传递 变量 会 大 大 降低 程序 的 可 读 性 。 为 了 解决 这 个 问题 ，5.3 市 
介绍 了 TensorFlow 中 利用 变量 名 称 来 创建 /获取 变量 的 机 制 ,通过 这 个 机 制 可 以 完全 将 前 问 
传播 的 过 程 抽象 出 来 ， 使 得 训练 和 测试 时 不 需要 关心 神经 网 络 的 结构 或 是 参数 。5.2 节 中 给 
出 的 训练 程序 男 外 一 个 问题 就 是 没有 将 训练 好 的 模型 持久 化 。5.4 厄 介 绍 了 TensorFlow 你 
存 模型 的 方法 以 及 TensorFlow 模型 持久 化 的 原理 和 数据 的 格式 。 综 合 5.3 和 5.4 市 中 提出 
的 问题 , 在 5.5 节 中 给 出 了 一 个 通过 TensorFlow 解决 MNIST 问题 的 最 佳 实践 样 例 程序 。 这 
个 样 例 将 神经 网 络 的 训练 、 测 试 和 使 用 拆 分 成 了 不 同 的 程序 ， 并 且 将 神经 网 络 的 前 同 传 播 
过 程 抽 象 成 了 一 个 独立 的 库 函 数 。 通 过 这 种 方式 可 以 将 训练 过 程 和 测试 、 使 用 过 程 解 帮 合 ， 
从 而 使 得 整个 流程 更 加 灵活 。 
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在 第 5 章 中 , 通过 MNIST 数据 集 验 证 了 第 4 章 介 绍 的 神经 网 络 设计 与 优化 的 方法 。 从 
实验 的 结果 可 以 看 出 ， 神 经 网 络 的 结构 会 对 神经 网 络 的 准确 率 产 生 巨 大 的 影响 。 本 章 将 介 
绍 一 个 非常 常用 的 神经 网 络 结 构 一 一 卷 积 神经 网 络 (Convolutional Neural Network, CNN)。 
卷 积 神经 网 络 的 应 用 非常 广泛 ,在 自然 语言 处 理 "、 医 药 发 现 ”、 灾 难 气候 发 现 ? 甚 至 围棋 人 
工 智能 程序 "中 都 有 应 用 。 本 章 将 主要 通过 卷 积 神经 网 络 在 图 像 识 别 上 的 应 用 来 讲解 卷 积 神 
经 网 络 的 基本 原理 以 及 如 何 使 用 TensorFlow 实现 卷 积 神经 网 络 。 

首先 6.1 节 将 介绍 图 像 识别 领域 解决 的 问题 以 及 图 像 识 别 领域 中 经 典 的 数据 集 。 然 后 
6.2 节 将 介绍 卷 积 神经 网 络 的 主体 思想 和 整体 架构 。 接 着 6.3 节 将 详细 讲解 卷 积 层 和 池 化 层 
的 网 络 结构 ， 以 及 TensorFlow 对 这 些 网 络 结构 的 支持 。 在 6.4 节 中 将 通过 两 个 经 典 的 卷 积 
神经 网 络 模型 来 介绍 如 何 设计 卷 积 神经 网 络 的 架构 以 及 如 何 设 置 每 一 层 神 经 网 络 的 配置 。 
这 一 节 将 通过 TensorFlow 实现 LeNet-5 模型 ， 并 介绍 TensorFlow-Slim 来 实现 更 加 复杂 的 
Inception-v3 模型 中 的 Inception 模块 .最 后 在 6.5 节 中 将 介绍 如 何 通 过 TensorFlow 实现 卷 积 
神经 网 络 的 迁移 学 习 。 





详情 请 参考 论文 : Learning Semantic Representations Using Convolutional Neural Networks for Web 
Search, A Deep Architecture for Semantic Parsing, A Convolutional Neural Network for Modelling Sentences 
及 Convolutional Neural Networks for Sentence Classification 

人 @) 参见 : Wallach TI Dzamba M, Heifets A, AtomNet: A Deep Convalutional Neural Network for Bioactivity 
Prediction in Structure-based Drug Discovery [可 Mathematische Zeitschrift, 2015， 

加 参见 : Liu 立 Racah E, Prabhat, et al. Application of Deep Convolutional Neural Networks for Detecting 
Extreme Weather in Climate Datasets [J|. 2016. 

由 参见 : Clark C, Storkey A. Teaching Deep Convolutional Neural Networks to Play Go [J]. Eprint Arxiv, 2015. 
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6.1 图 像 识别 问题 简介 及 经 典 数据 集 


视觉 是 人 类 认识 世界 非常 重要 的 一 种 知觉 。 对 于 人 类 来 说 ， 通 过 视觉 来 识别 手写 体 数 
字 、 识 别 图 片 中 的 物体 或 者 找 出 图 片 中 人 脸 的 轮廓 都 是 非常 简单 的 任务 。 然 而 对 于 计算 机 
而 言 ， 让 计算 机 识别 图 片 中 的 内 容 就 不 是 一 件 容易 的 事情 了 。 图 像 识别 问题 希望 借助 计算 
机 程序 来 处 理 、 分 析 和 理解 图 片 中 的 内 容 ， 使 得 计算 机 可 以 从 图 片 中 自动 识别 各 种 不 同 模 
式 的 目标 和 对 像 ,比如 在 第 5 章 中 介绍 的 MNIST 数据 集 就 是 通过 计算 机 来 识别 图 片 中 的 手 
写 体 数字 。 图 像 识 别 问题 作为 人 工 智 能 的 一 个 重要 领域 ， 在 最 近 几 年 已 经 取得 了 很 多 突破 
性 的 进展 。 本 章 将 要 介绍 的 卷 积 神经 网 络 就 是 这 些 突破 性 进展 背后 的 最 主要 技术 支持 。 
图 6-1 中 显示 了 图 像 识 别 的 主流 技术 在 MNIST 数据 集 上 的 错误 率 随 着 年 份 的 发 展 趋势 图 。 
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6-1 不 同 算法 在 MNIST 数据 集 上 最 好 表现 变化 趋势 图 





6-1 中 最 下 方 的 虚线 表示 人 工 标 注 的 错误 率 ， 其 他 不 同 的 线段 表示 了 不 同 算法 的 错 
误 率 。 从 图 6-1 上 可 以 看 出 ， 相 比 其 他 算法 ， 卷 积 神经 网 络 可 以 得 到 更 低 的 错误 率 。 而 且 
通过 卷 积 神经 网 络 达到 的 错误 率 已 经 非常 接近 人 工 标 注 的 错误 率 了 。 在 MINIST 数据 集 的 一 
万 个 测试 数据 上 ， 最 好 的 深度 学 习 算 法 只 会 比 人 工 识别 多 错 一 张 图 片 。 

MNIST 手写 体 识别 数据 集 是 一 个 相对 简单 的 数据 集 , 在 其 他 更 加 复杂 的 图 像 识 别 数据 


加 数字 来 源 于 http://yann.lecun.com/exdb/mnist, 
加 人 工 标注 错误 率 参 见 : Simard P Lecun Y, Denker ] S. Efficient Pattern Recognition Using a New 
Transformation Distance [M]// Advances in Neural Information Processing Systems (NIPS 1992). 1993， 
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集 上 ， 卷 积 神经 网 络 有 更 加 突出 的 表现 。Cifar 数据 集 就 是 一 个 影响 力 很 大 的 图 像 分 类 数据 
集 。Cifar 数据 集 分 为 了 Cifar-10 和 Cifar-100 两 个 问题 ， 它 们 都 是 图 像 词典 项 目 (Visual 
Dictionary)“ 中 800 万 张 图 片 的 一 个 子 集 。Cifar 数据 集中 的 图 片 为 32X32 的 彩色 图 片 ， 这 
些 图 片 是 由 Alex Krizhevsky 教授 、Vinod Nair 博士 和 Geoffrey Hinton 教授 整理 的 。 

Cifar-10 问题 收集 了 来 自 10 个 不 同 种 类 的 60000 张 图 片 , 图 6-2 的 左 侧 显示 了 Cifar-10 
数据 集中 的 每 一 个 种 类 中 的 一 些 样 例 图 片 以 及 这 些 种 类 的 类 别名 称 ， 图 6-2 的 右 侧 给 出 
Cifar-10 中 一 张 飞机 的 图 像 。 因 为 图 像 的 像素 仅 为 32X32， 所 以 放大 之 后 图 片 是 比较 模糊 
的 ， 但 隐约 还 是 可 以 看 出 飞机 的 轮廓 。Cifar 官网 https://www.cs.toronto.edu/~kriz/cifar.html 
提供 了 不 同 格式 的 Cifar 数据 集 下 载 ， 具 体 的 数据 格式 这 里 不 再 效 述 。 


“ 涯 图 咱 吧 ~ 询 国 国 亚 二 
- 区 岛 麻 革 时 遂 斌 加 时 万 - 
1 
医 区 吃 回 痪 面 区 国志 本 gp 
本 硬 四 于 本 汪 加 国 琶 
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图 6-2 ”Cifar-10 数据 集 样 例 图 片 


和 MNIST 数据 集 类 似 ，Cifar-10 中 的 图 片 大 小 都 是 固定 的 且 每 一 张 图 片 中 仅 包 含 一 个 
种 类 的 实体 ~。 但 和 MNIST 相 比 ，Cifar 数据 集 最 大 的 区 别 在 于 图 片 由 黑白 变 成 的 彩色 ， 且 
分 类 的 难度 也 相对 更 高 在 Cifar-10 数据 集 上 ,人工 标注 的 正确 率 大 概 为 94%”, 这 比 MNIST 
数据 集 上 的 人 工 表 现 要 低 很 多 。 图 6-3 给 出 了 MNIST 和 Cifar-10 数据 集中 比较 难以 分 类 的 


Q 更 多 关于 图 像 词 典 项 目的 介绍 可 以 参考 其 官方 网 站 http://groups.csail.mit.edu/vision/TinylImages。 
@ MNIST 数据 集中 每 一 张 图 片 只 包含 一 个 数字 ; Cifar-10 和 Cifar-100 数据 集中 每 一 张 图 片 只 包含 一 个 种 
类 的 物体 。 


@@ 人 工 标 注 的 准确 率 来 自 技术 博客 http://torch.ch/blog/2015/07/30/cifar.html。 
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图 片 样 例 。 在 图 6-3 左 侧 的 四 张 图 片 给 出 了 Cifar-10 数据 集中 比较 难 分 类 的 图 片 ， 直 接 从 
图 片上 看 ， 人 类 也 很 难 判 断 图 片上 实体 的 类 别 。 图 6-3 右 侧 的 四 张 图 片 给 出 了 MNIST 数据 
集中 难度 较 高 的 图 片 。 在 这 些 难 度 高 的 图 片上 ， 人 类 还 是 可 以 有 一 个 比较 准确 的 猜测 。 目 
前 在 Cifar-10 数据 集 上 最 好 的 图 像 识别 算法 正确 率 为 95.59%”， 达 到 这 个 正确 率 的 算法 同 
样 使 用 了 郑 积 神经 网 络 。 





图 6-3 MNIST 和 Cifar-10 数据 集中 分 类 难度 较 高 的 样 例 


无 论 是 MNIST 数据 集 还 是 Cifar 数据 集 ， 相 比 真 实 环境 下 的 图 像 识 别 问题 ， 有 2 个 最 
大 的 问题 。 第 一 ， 现 实生 活 中 的 图 片 分 辩 率 要 远 高 于 32X32， 而 且 图 像 的 分 辨 率 也 不 会 是 
固定 的 。 第 二 ,现实 生活 中 的 物体 类 别 很 多 ， 无论 是 10 种 还 是 100 种 都 远 远 不 够 ， 而 且 一 
张 图 片 中 不 会 只 出 现 一 个 种 类 的 物体 。 为 了 更 加 贴近 真实 环境 下 的 图 像 识 别 问 题 ， 由 斯 坦 
福 大 学 (Stanford University) 的 李 飞 飞 (Feifei Li) 教授 带头 整理 的 ImageNet 很 大 程度 地 
解决 了 这 两 个 问题 。 

ImageNet 是 一 个 基于 WordNet 的 大 型 图 像 数 据 库 。 在 ImageNet 中 , 将 近 1500 万 图 片 
被 关联 到 了 WordNet 的 大 约 20000 个 名 词 同义词 集 上 。 目 前 每 一 个 与 ImageNet 相关 的 
WordNet 同义词 集 都 代表 了 现实 世界 中 的 一 个 实体 , 可 以 被 认为 是 分 类 问题 中 的 一 个 类 别 。 


Q@ 具体 数字 出 自 : Springenberg J T, Dosovitskiy A, Brox T, et al. Striving for Simplicity: The All Convolutional 
Net [J]. Eprint Arxiv, 2014. 

@ WordNet 是 一 个 大 型 英语 语义 网 ， 里 面 将 名 词 、 动 词 、 形 容 词 和 副词 整理 成 了 同义词 集 ， 并 标注 了 不 
同 同义词 集 之 间 的 关系 。WordNet 具体 信息 可 以 参考 WordNet 官网 : https://wordnet.princeton.edu/。 
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ImageNet 中 的 图 片 都 是 从 互联 网 上 疏 取 下 来 的 , 并 且 通 过 亚马逊 的 人 工 标注 服务 (Amazon 
Mechanical Turk) 将 图 片 分 类 到 WordNet 的 同义词 集 上 ”。 在 ImageNet 的 图 片 中 ， 一 张 图 
片 中 可 能 出 现 多 个 同义词 集 所 代表 的 实体 。 

到 6-4 展示 了 ImageNet 中 的 一 张 图 片 ， 在 这 张 图 片上 用 几 个 矩形 框 出 了 不 同 实 体 的 轮 
廓 。 在 物体 识别 问题 中 , 一 般 将 用 于 框 出 实体 的 矩形 称 为 bounding box。 在 图 6-4 中 总 共 可 
以 找到 四 个 实体 ， 其 中 有 两 把 棒子、 一 个 人 和 一 条 狗 。 类 似 图 6-4 中 所 示 ，ImageNet 的 部 
分 图 片 中 的 实体 轮廓 也 被 标注 了 出 来 ， 以 用 于 更 加 精确 的 图 像 识 别 。 





图 6-4 ImageNet 样 例 图 片 以 及 标注 出 来 的 实体 轮廓 2 


ImageNet 每 年 都 举办 图 像 识 别 相关 的 竞赛 (ImageNet Large Scale Visual Recognition 
Challenge，ILSVRC)， 而 且 每 年 的 竞赛 都 会 有 一 些 不 同 的 问题 ， 这 些 问 题 茜 本 涵盖 了 图 像 
识别 的 主要 研究 方向 。ImageNet 的 官网 http://www.image-net.org/challenges/LSVRC 列 出 了 
历届 ILSVRC 竞赛 的 题目 和 数据 集 。 不 同年 份 的 InageNet 比赛 提供 了 不 同 的 数据 集 ， 本 书 
将 着 重 介绍 使 用 得 最 多 的 ILSVRC2012 图 像 分 类 数据 集 。 

ILSVRC2012 图 像 分 类 数据 集 的 任务 和 Cifar 数据 集 是 基本 一 致 的 ， 也 是 识别 图 像 中 的 
主要 物体 。ILSVRC2012 图 像 分 类 数据 集 包 含 了 来 自 1000 个 类 别 的 120 万 张 图 片 ， 其 中 每 
张 图 片 属于 且 只 属于 一 个 类 别 。 因 为 ILSVRC2012 图 像 分 类 数据 集中 的 图 片 是 直接 从 互联 


中 ImageNet 中 图 片 的 具体 整理 和 标注 方式 可 以 参考 : Deng 本 Dong W, Socher R, et al. JmageNet: 4 
large-scale hierarchical image database [Cl// Computer Vision and Pattern Recognition, 2009, CVPR 2009. 
IEEE Conference on, IEEE, 2009. 

此 图 片 来 自 于 ImageNet 官方 网 站 。 
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网 上 把 取得 到 的 ， 所 以 图 片 的 大 小 从 几 千 字 节 到 几 百 万 字 节 不 等 。 

图 6-5 给 出 了 不 同 算法 在 ImageNet 图 像 分 类 数据 集 上 的 top-5 正确 率 。 top-N 正确 率 指 
的 是 图 像 识别 算法 给 出 前 N 个 答案 中 有 一 个 是 正确 的 概率 。 在 图 像 分 类 问题 上 ， 很 多 学 术 
论文 都 将 前 N 个 答案 的 正确 率 作 为 比较 的 方法 ， 其 中 N 的 取 值 一 般 为 3 或 5。 从 图 6-5 中 
可 以 看 出 ,在 更 加 复杂 的 ImageNet 问题 上 ， 基 于 卷 积 神经 网 络 的 图 像 识 别 算法 可 以 远 远 超 
过 人 类 的 表现 。 在 图 6-5 的 左 侧 对 比 了 传统 算法 与 深度 学 习 算 法 的 正确 率 。 从 图 中 可 以 看 
出 ， 深 度 学 习 ， 特 别 是 卷 积 神经 网 络 ， 给 图 像 识别 问题 带 来 了 质 的 飞跃 。2013 年 之 后 ， 基 
本 上 上 所 有 的 研究 都 集中 到 了 深度 学 习 算 法 上 。 从 6.2 节 开 始 将 具体 介绍 卷 积 神经 网 络 的 基 
本 原理 ， 以 及 如 何 通 过 TensorFlow 实现 卷 积 神经 网 络 。 
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6-5 不同 算法 在 ImageNetILSVRC2012 图 像 分 类 数据 集 上 的 正确 率 


6.2 卷 积 神 经 网 络 简 介 


在 6.1 节 中 介绍 图 像 识 别 问题 时 ， 已 经 多 次 提 到 了 卷 积 神经 网 络 。 卷 积 神经 网 络 在 6.1 
节 中 介绍 的 所 有 图 像 分 类 数据 集 上 有 非常 突出 的 表现 。 在 前 面 的 章节 中 所 介绍 的 神经 网 络 
每 两 层 之 间 的 所 有 结 点 都 是 有 边 相 连 的 ， 所 以 本 书 称 这 种 网 络 结构 为 全 连接 层 网 络 结构 。 
为 了 将 只 包含 全 连接 层 的 神经 网 络 与 卷 积 神经 网 络 、 循 环 神经 网 络 " 区 分 开 , 本 书 将 只 包含 


外 第 8 章 将 介绍 循环 神经 网 络 。 
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全 连接 层 的 神经 网 络 称 之 为 全 连接 神经 网 络 。 在 第 4 章 和 第 5 章 中 介绍 的 神经 网 络 都 为 全 
连接 神经 网 络 。 在 这 一 市 中 将 讲解 卷 积 神经 网 络 与 全 连接 神经 网 络 的 差异 ， 并 介绍 组 成 一 
个 卷 积 神经 网 络 的 基本 网 络 结构 。 图 6-6 显示 了 全 连接 神经 网 络 与 卷 积 神经 网 络 的 结构 对 
比 图 。 





全 连接 神经 网 络 (a) 状 积 神经 网 络 {b) 
图 6-6 全 连接 神经 网 阁 与 若 积 神经 网 络 结构 示意 图 


虽然 图 6-6 中 显示 的 全 连接 神经 网 络 结构 和 卷 积 神经 网 络 的 结构 直观 上 差异 比较 大 ， 
但 实际 上 它们 的 整体 架构 是 非常 相似 的 。 从 图 6-6 中 可 以 看 出 ， 卷 积 神经 网 络 也 是 通过 一 
层 一 层 的 节点 组 织 起 来 的 。 和 全 连接 神经 网 络 一 样 ， 卷 积 神经 网 络 中 的 每 一 个 节点 都 是 一 
个 神经 元 "。 在 全 连接 神经 网 络 中 , 每 相 邻 两 层 之 间 的 节点 都 有 边 相 连 ， 于 是 一 般 会 将 每 一 
层 全 连接 层 中 的 节 扣 组 织 成 一 列 ， 这 样 方便 显示 连接 结构 。 而 对 于 卷 积 神经 网 络 ， 相 邻 两 
层 之 间 只 有 部 分 节点 相连 ， 为 了 展示 每 一 层 神经 元 的 维度 ， 一 般 会 将 每 一 层 卷 积 层 的 节点 
组 织 成 一 个 三 维和 矩阵 。 

除了 结构 相似 , 卷 积 神经 网 络 的 输入 输出 以 及 训练 流程 与 全 连接 神经 网 络 也 基本 一 致 。 
以 图 像 分 类 为 例 ， 卷 积 神经 网 络 的 输入 层 就 是 图 像 的 原始 像素 ， 而 输出 层 中 的 每 一 个 节点 
代表 了 不 同类 别 的 可 信和 度 。 这 和 全 连接 神经 网 络 的 输入 输出 是 一 致 的 。 类 似 的 ， 第 4 章 中 
介绍 的 损失 函数 以 及 参数 的 优化 过 程 也 都 适用 于 卷 积 神经 网 络 。 在 后 面 的 章节 中 会 看 到 ， 
在 TensorFlow 中 训练 一 个 卷 积 神经 网 络 的 流程 和 训练 一 个 全 连接 神经 网 络 没有 任何 区 别 。 
卷 积 神经 网 络 和 全 连接 神经 网 络 的 唯一 区 列 就 在 于 神经 网 络 中 相 邻 两 层 的 连接 方式 。 在 进 
一 步 介绍 卷 积 神经 网 络 的 连接 结构 之 前 ， 本 节 将 先 介绍 为 什么 全 连接 神经 网 络 无 法 很 好 地 
处 理 图 像 数 据 。 

使 用 全 连接 神经 网 络 处 理 图 像 的 最 大 问题 在 于 全 连接 层 的 参数 太 多 。 对 于 MNIST 数 
据 ， 每 一 张 图 片 的 大 小 是 28x28x1， 其 中 28x28 为 图 片 的 大 小 ，x1l 表示 图 像 是 黑白 的 ， 只 
有 一 个 色彩 通道 。 假 设 第 一 层 隐藏 层 的 节点 数 为 500 个 ， 那 么 一 个 全 链接 层 的 神经 网 络 将 
有 28x28x500+500=392500 个 参数 。 当 图 片 更 大 时 ， 比 如 在 Cifar-10 数据 集中 ， 图片 的 大 小 


名 在 第 4 章 的 图 4-5 中 介绍 了 神经 元 的 结构 。 
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为 32x32x3, 其 中 32x32 表示 图 片 的 大 小 ,x3 表示 图 片 是 通过 红 绿 蓝 三 个 色彩 通道 (channel) 
表示 的 ”。 这 样 输入 层 就 有 3072 个 节点 ， 如 果 第 一 层 全 连接 层 仍然 是 500 个 节点 ， 那 么 这 
一 层 全 链接 神经 网 络 将 有 3072x500+500x150 万 个 参数 。 参 数 增多 除了 导致 计算 速度 减 慢 ， 
还 很 容易 导致 过 拟 合 问题 。 所 以 需要 一 个 更 合理 的 神经 网 络 结构 来 有 效 地 减少 神经 网 络 中 
参数 个 数 。 卷 积 神经 网 络 就 可 以 达到 这 个 目的 。 

图 6-7 给 出 了 一 个 更 加 有 具体 的 卷 积 神 经 网 络 架 构图 。 


卷 积 层 1 池 化 层 1 卷 积 层 2 池 化 层 2 ”全 连接 层 1 全 连接 层 2 
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图 6-7 ”用 于 图 像 分 类 问题 的 一 种 卷 积 神经 网 络 以 构图 


在 卷 积 神经 网 络 的 前 几 层 中 ， 每 一 层 的 节点 都 被 组 织 成 一 个 三 维 矩阵 。 比 如 处 理 
Cifar-10 数据 集中 的 图 片 时 , 可 以 将 输入 层 组 织 成 一 个 32x32x3 的 三 维和 矩阵 。 图 6-7 中 虚线 
部 分 展示 了 卷 积 神经 网 络 的 一 个 连接 示意 图 ， 从 图 中 可 以 看 出 卷 积 神经 网 络 中 前 几 层 中 每 
一 个 节点 只 和 上 一 层 中 部 分 的 节点 相连 。 卷 积 神经 网 络 的 具体 连接 方式 将 在 6.3 节 中 介绍 。 
一 个 卷 积 神经 网 络 主要 由 以 下 5 种 结构 组 成 : 

1. 输入 层 。 输 入 层 是 整个 神经 网 络 的 输入 ， 在 处 理 图 像 的 卷 积 神经 网 络 中 ， 它 一 般 代 
表 了 一 张 图 片 的 像素 矩阵 。 比 如 在 图 6-7 中 ， 最 左 侧 的 三 维 矩 阵 就 可 以 代表 一 张 图 片 。 其 
中 三 维和 矩阵 的 长 和 宽 代 表 了 图 像 的 大 小 ， 而 三 维 矩 阵 的 深度 代表 了 图 像 的 色彩 通道 
(Cchannel)。 比 如 黑白 图 片 的 深度 为 1， 而 在 RGB 色彩 模式 下 ; 图 像 的 深度 为 3。 从 输入 层 
开始 ， 卷 积 神经 网 络 通过 不 同 的 神经 网 络 结构 将 上 一 层 的 三 维 矩阵 转化 为 下 一 层 的 三 维 抵 
阵 ， 直 到 最 后 的 全 连接 层 。 

2. 卷 积 层 。 从 名 字 就 可 以 看 出 ， 卷 积 层 是 一 个 卷 积 神经 网 络 中 最 为 重要 的 部 分 。 和 传 
统 全 连接 层 不 同 ， 卷 积 层 中 每 一 个 节点 的 输入 只 是 上 一 层 神经 网 络 的 一 小 块 ， 这 个 小 块 常 
用 的 大 小 有 3X3 或 者 SX5。 卷 积 层 试 图 将 神经 网 络 中 的 每 一 小 块 进 行 更 加 深入 地 分 析 从 


Q@ 在 RGB 色彩 模式 下 , 一 幅 完 整 的 图 像 是 由 红色 、 绿 色 和 蓝 色 3 个 通道 组 成 的 。 因 为 每 个 通道 在 每 个 像 
素 点 上 都 有 亮度 值 ， 所 以 整个 图 片 就 可 以 表示 成 一 个 三 维 矩 阵 。 
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而 得 到 抽象 程度 更 高 的 特征 。 一 般 来 说 ， 通 过 卷 积 层 处 理 过 的 节点 矩阵 会 变 得 更 深 ， 所 以 
在 图 6-7 中 可 以 看 到 经 过 卷 积 层 之 后 的 节点 矩阵 的 深度 会 增加 。 

3. 池 化 层 《Pooling)。 池 化 层 神 经 网 络 不 会 改变 三 维 矩 阵 的 深度 ， 但 是 它 可 以 缩小 矩 
阵 的 大 小 。 池 化 操作 可 以 认为 是 将 一 张 分 辨 率 较 高 的 图 片 转 化 为 分 辨 率 较 低 的 图 片 。 通 过 
池 化 层 ， 可 以 进一步 缩小 最 后 全 连接 层 中 节点 的 个 数 ， 从 而 达到 减少 整个 神经 网 络 中 参数 
的 目的 。 

4. 全 连接 层 。 如 图 6-7 所 示 ， 在 经 过 多 轮 卷 积 层 和 池 化 层 的 处 理 之 后 ， 在 卷 积 神经 网 
络 的 最 后 一 般 会 是 由 1 到 2 个 全 连接 层 来 给 出 最 后 的 分 类 结果 。 经 过 几 轮 卷 积 层 和 池 化 层 
的 处 理 之 后 ， 可 以 认为 图 像 中 的 信息 已 经 被 抽象 成 了 信息 含量 更 高 的 特征 。 我 们 可 以 将 卷 
积 层 和 池 化 层 看 成 自动 图 像 特征 提取 的 过 程 。 在 特征 提取 完成 之 后 ， 仍 然 需要 使 用 全 连接 
层 来 完成 分 类 任务 。 

5，Softmax 层 。 和 第 4 章 中 介绍 的 一 样 ，Softmax 层 主 要 用 于 分 类 问题 。 通 过 Softmax 
层 ， 可 以 得 到 当前 样 例 属 于 不 同 种 类 的 概率 分 布 情况 。 

在 卷 积 神经 网 络 中 使 用 到 的 输入 层 、 全 连接 层 和 Softmax 层 在 第 4 章 中 都 有 过 详细 的 
介绍 ， 这 里 不 再 著述 。 在 下 面 的 6.3 节 中 将 详细 介绍 卷 积 神经 网 络 中 特殊 的 两 个 网 络 结构 
一 一 卷 积 层 和 池 化 层 。 


6.3 ” 卷 积 神经 网 络 吊 用 结构 


6.2 节 已 经 大 致 介绍 了 卷 积 层 和 池 化 层 的 概念 ， 在 本 节 中 将 具体 介绍 这 两 种 网 络 结构 。 
在 下 面 的 两 个 小 节 中 将 分 别 介 绍 卷 积 层 和 池 化 层 的 网 络 结构 以 及 前 向 传播 的 过 程 ， 并 通过 
TensorFlow 实现 这 些 网 络 结构 。 本 书 中 将 不 会 介绍 优化 卷 积 神经 网 络 的 数学 公式 ， 但 通过 
TensorFlow 可 以 很 容易 地 完成 优化 的 过 程 。 


6.3.1 卷 积 层 


本 小 节 将 详细 介绍 卷 积 层 的 结构 以 及 其 前 向 传播 的 算法 。 图 6-8 中 显示 了 卷 积 层 神经 
网 络 结构 中 最 重要 的 部 分 ， 这 个 部 分 被 称 之 为 过 滤器 (filter》 或 者 内 核 (kemel)。 因 为 
TensorFlow 文档 中 将 这 个 结构 称 之 为 过 滤器 (fter)， 所 以 在 本 书 中 将 统称 这 个 结构 为 过 滤 
器 。 如 图 6-8 所 示 ， 过 滤器 可 以 将 当前 层 神 经 网 络 上 的 一 个 子 节点 矩阵 转化 为 下 一 层 神 经 
网 络 上 的 一 个 单位 节点 给 阵 。 单 位 节点 给 阵 指 的 是 一 个 长 和 宽 虱 为 1， 但 次 度 不 限 的 节 扣 
和 矩阵。 
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6-8 ” 卷 积 层 过 滤器 (filter) 结构 示意 图 ? 


在 一 个 卷 积 层 中 ， 过 滤器 所 处 理 的 节点 矩阵 的 长 和 宽 都 是 由 人 工 指定 的 ， 这 个 节点 给 
阵 的 尺寸 也 被 称 之 为 过 滤器 的 尺寸 。 常 用 的 过 滤器 尺寸 有 3X3 或 5X5。 因 为 过 滤器 处 理 
的 矩阵 深度 和 当前 层 神 经 网 络 节点 算 阵 的 深度 是 一 致 的 ， 所 以 虽然 节点 矩阵 是 三 维 的 ， 但 
过 滤器 的 尺寸 具 需 要 指定 两 个 维度 。 过 滤器 中 男 外 一 个 需要 人 人 工 指 定 的 设置 是 处 理 得 到 的 
单位 节点 矩阵 的 深度 ， 这 个 设置 称 为 过 滤器 的 深度 。 注 意 过 滤器 的 尺寸 指 的 是 一 个 过 滤器 
输入 节点 矩阵 的 大 小 ， 而 深度 指 的 是 输出 单位 节点 矩阵 的 深度 。 如 图 6-8 所 示 ， 左 侧 小 矩 
阵 的 尺寸 为 过 滤器 的 尺寸 ,而 右 侧 单位 矩阵 的 深度 为 过 滤器 的 深度 。6.4 节 将 通过 一 些 经 典 
卷 积 神经 网 络 结构 来 了 解 如 何 设 置 每 一 层 卷 积 层 过 滤器 的 尺寸 和 深度 。 

如 图 6-8 所 示 ， 过 滤器 的 前 问 传播 过 程 就 是 通过 左 侧 小 矩阵 中 的 节点 计算 出 右 侧 单 位 
矩阵 中 节点 的 过 程 。 为 了 直观 地 解释 过 滤器 的 前 向 传播 过 程 ， 在 下 面 的 篇 幅 中 将 给 出 一 个 
具体 的 样 例 。 在 这 个 样 例 中 将 展示 如 何 通过 过 滤器 将 一 个 2X2X3 的 节点 矩阵 变化 为 一 个 
1X1X5 的 单位 节点 矩阵 。 一 个 过 滤器 的 前 向 传播 过 程 和 全 连接 层 相 似 ， 它 总 共 需 要 
2x2x3x5+5=65 个 参数 ， 其 中 最 后 的 +5 为 偏 置 项 参数 的 个 数 。 假 设 使 用 wi,; 来 表示 对 于 输 
出 单位 节点 矩阵 中 的 第 ;个 节点 ， 过 滤器 输入 节点 (xyz) 的 权重 ， 使 用 5 表示 第 i 个 输出 
节点 对 应 的 偏 置 项 参数 ， 那 么 单位 矩阵 中 的 第 i 个 节点 的 取 值 g(D) 为 : 

2 3 
gD)=70 7 ary xX Wy tb 


X=] y=] z=! 
其 中 gy; 为 过 滤器 中 节点 (xyz) 的 取 值 ，f 为 激活 函数 。 图 6-9 展示 了 在 给 定 a，w" 和 
加 的 情况 下 ， 使 用 ReLU 作为 激活 函数 时 g(0) 的 计算 过 程 。 在 图 6-9 的 左 侧 给 出 了 a 和 Ww 
的 取 值 ， 这 里 通过 3 个 二 维和 矩阵 来 表示 一 个 三 维和 矩阵 的 取 值 ， 其 中 每 一 个 二 维和 矩阵 表示 三 
维和 矩阵 在 菜 一 个 深度 上 的 取 值 。 图 6-9 中 。 符 号 表示 点 积 ， 也 就 是 矩阵 中 对 应 元 素 乘积 的 
和 。 图 6-9 的 右 侧 显示 了 g(0) 的 计算 过 程 。 如 果 给 出 妇 到 巡 和 六 到 世 ， 那 么 也 可 以 类 和 似 
地 计算 出 g(1) 到 g(4) 的 取 值 。 如 果 将 a 和 说 组 织 成 两 个 向 量 ， 那 么 一 个 过 滤器 的 计算 过 程 


中 此 图 片 来 自 斯 坦 福 大 学 在 线 卷 积 神经 网 络 教程 hittp://cs231n.github.io/convolutional-networks/。 
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完全 可 以 通过 第 3 章 中 介绍 的 向 量 乘法 来 完成 。 


o0) = {1 2+2x0+0x1+(-1) x (—-1)+ 
[2x(-—2)+1x%2+(-1)x0+(-2) x1]+ 


[ix0O0TOx1+2x(-1)+1x(-D)]+1) 
= (3 二 (= 外 十 (=)+1) 
=f{-3}=0 





图 6-9 ”使 用 过 滤器 计算 g(0) 取 值 的 过 程 示意 图 


上 面 的 样 例 已 经 介绍 了 在 卷 积 层 中 计算 一 个 过 滤器 的 前 向 传播 过 程 。 卷 积 层 结构 的 前 
向 传播 过 程 就 是 通过 将 一 个 过 滤器 从 神经 网 络 当 前 层 的 左上 角 移 动 到 右 下 角 ， 并 且 在 移动 
中 计算 每 一 个 对 应 的 单位 矩阵 得 到 的 。 图 6-10 展示 了 卷 积 层 结构 前 向 传播 的 过 程 。 为 了 更 
好 地 可 视 化 过 滤器 的 移动 过 程 ， 图 6-10 中 使 用 的 节点 矩阵 深度 都 为 1。 在 图 6-10 中 ， 展 示 
了 在 3X3 矩阵 上 使 用 2X2 过 滤器 的 卷 积 层 前 向 传播 过 程 。 在 这 个 过 程 中 ， 首 先 将 这 个 过 
滤器 用 于 左上 和 角子 和 矩 阵 ， 然 后 移动 到 左下 角 和 矩阵 ， 再 到 右上 角 和 矩阵 ， 最 后 到 右 下 和 角 矩 阵 。 
过 滤器 每 移动 一 次 ,可 以 计算 得 到 一 个 值 ( 当 深度 为 k 时 会 计算 出 k 个 值 )。 将 这 些 数值 拼 
接 成 一 个 新 的 矩阵 ， 就 完成 了 卷 积 层 前 向 传播 的 过 程 。 图 6-10 的 右 侧 显示 了 过 滤器 在 移动 
过 程 中 计算 得 到 的 结果 与 新 矩阵 中 节点 的 对 应 天 系 。 





当 过 滤器 的 大 小 不 为 1X1 时 , 卷 积 层 前 向 传播 得 到 的 矩阵 的 尺寸 要 小 于 当前 层 矩 阵 的 
尺寸 。 如 图 6-10 所 示 ， 当 前 层 矩 阵 的 大 小 为 3X3 (图 6-10 左 侧 和 矩阵 )， 而 通过 卷 积 层 前 向 
传播 算法 之 后 ， 得 到 的 矩阵 大 小 为 2xX2 (图 6-10 右 侧 矩阵 )。 为 了 避免 尺寸 的 变化 ， 可 以 
在 当前 层 矩 阵 的 边界 上 加 入 全 0 填充 (zero-padding)。 这 样 可 以 使 得 卷 积 层 前 向 传播 结果 
和 矩阵 的 大 小 和 当前 层 矩 阵 保 持 一 致 。 图 6-11 显示 了 使 用 全 0 填充 后 卷 积 层 前 向 传播 过 程 示 
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意图 。 从 图 中 可 以 看 出 ， 加 入 一 层 全 0 盾 充 后 ， 得 到 的 结构 矩阵 大 小 就 为 3X3 了 。 





图 6-11 使 用 了 全 0 填充 〈zero-padding) 的 卷 积 层 前 向 传播 示意 图 8 
除了 使 用 全 0 填充 ， 还 可 以 通过 设置 过 滤器 移动 的 步 长 来 调整 结果 矩阵 的 大 小 。 在 图 
6-10 和 图 6-11 中 ,过 滤器 每 次 都 只 移动 一 格 。 图 6-12 中 显示 了 当 移 动 步 长 为 2 且 使 用 全 0 
填充 时 ， 卷 积 层 前 向 传播 的 过 程 。 





mm] 
图 6-12 ”过 滤器 移动 步 长 为 2 且 使 用 全 0 填充 时 卷 积 层 前 向 传播 过 程 示 意 


从 图 6-12 上 可 以 看 出 ， 当 长 和 宽 的 步 长 均 为 2 时 ， 过 滤器 每 隔 2 步 计 算 一 次 结果 ， 所 
以 得 到 的 结果 拢 阵 的 长 和 宽 也 就 都 只 有 原来 的 一 半 。 下 面 的 公式 给 出 了 在 同时 使 用 全 0 填 
充 时 绪 果 矩阵 的 大 小 。 
Outiongth = | Pienem / stridelength | 
Outwidh = | nywiaih / stridewiah | 


其 中 outhsiew 表 示 输 出 层 矩 阵 的 长 度 ， 它 等 于 输入 层 矩 阵 长 度 除 以 长 度 方向 上 的 步 长 的 


@ 此 处 全 0 填充 的 方式 和 TensorFlow 中 实现 的 方式 咯 有 不 同 ， 但 是 原理 是 一 样 的 。 
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向 上 取 整 值 。 类 似 的 ，outwian 表示 输出 层 矩 阵 的 宽度 ， 它 等 于 输入 层 托 阵 宽 度 除 以 宽度 方 
向 上 的 步 长 的 向 上 取 整 值 。 如 果 不 使 用 全 0 填充， 下 面 的 公式 给 出 了 结果 矩阵 的 大 小 。 
OUtlength = | (irrengt — filteriengm + 1)/ striderengih | 
OUlwidth = | (inwian — filterwvidm + 1)/ str idewiaih | 
在 图 6-10、 图 6-11 以 及 图 6-12 中 ， 只 讲解 了 移动 过 滤器 的 方式 ， 没 有 涉及 到 过 滤器 
中 的 参数 如 何 设 定 ， 所 以 在 这 些 图 片 中 结果 矩阵 中 并 没有 填 上 具体 的 值 。 在 卷 积 神经 网 络 
中 ， 每 一 个 卷 积 层 中 使 用 的 过 滤器 中 的 参数 都 是 一 样 的 。 这 是 卷 积 神经 网 络 一 个 非常 重要 
的 性 质 。 从 直观 上 理解 ， 共 享 过 滤器 的 参数 可 以 使 得 图 像 上 的 内 容 不 受 位 置 的 影响 。 以 
MNIST 手写 体 数字 识别 为 例 ， 无 论 数 字 “1?” 出 现在 左上 和 角 还 是 右 下 角 ， 图 片 的 种 类 都 是 
不 变 的 。 因 为 在 左上 角 和 右 下 角 使 用 的 过 滤器 参数 相同 ， 所 以 通过 卷 积 层 之 后 无 论 数字 在 
图 像 上 的 哪个 位 置 ， 得 到 的 结果 都 一 样 。 
共享 每 一 个 卷 积 层 中 过 滤器 中 的 参数 可 以 巨 幅 减少 神经 网 络 上 的 参数 。 以 Cifar-10 问 
题 为 例 ， 输 入 层 和 矩阵 的 维度 是 32x32x3。 假 设 第 一 层 卷 积 层 使 用 尺寸 为 5x5， 深 度 为 16 的 
过 滤器 ， 那 么 这 个 卷 积 层 的 参数 个 数 为 5x5x3x16+16=1216 个 。6.2 节 中 提 到 过 ， 使 用 500 
个 隐藏 节点 的 全 连接 层 将 有 1.5 百 万 个 参数 。 相 比 之 下 ， 卷 积 层 的 参数 个 数 要 远 远 小 于 全 
连接 层 。 而 且 卷 积 层 的 参数 个 数 和 图 片 的 大 小 无 关 ， 它 只 和 过 滤器 的 尺寸 、 深 度 以 及 当前 
层 节 点 矩阵 的 深度 有 关 。 这 使 得 卷 积 神经 网 络 可 以 很 好 地 扩展 到 更 大 的 图 像 数 据 上 。 
结合 过 滤器 的 使 用 方法 和 参数 共享 的 机 制 ， 图 6-13 给 出 了 使 用 了 全 0 填充 、 步 长 为 2 
的 卷 积 层 前 和 癌 传播 的 计算 流程 。 





图 6-13 ” 卷 积 层 前 向 传播 过 程 样 例 图 
6-13 给 出 了 过 滤器 上 权重 的 取 值 以 及 偏 置 项 的 取 值 ,通过 图 6-9 中 所 示 的 计算 方法 ， 
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可 以 得 到 每 一 个 格子 的 具体 取 值 。 下 面 的 公式 给 出 了 左上 和 角 格 子 取 值 的 计算 方法 ， 其 他 格 
于 可 以 依次 类 推 。 
ReLU(0x1+0x(CD+0x0+1*2+D)=ReLU(G)=3 
TensorFlow 对 卷 积 神经 网 络 提供 了 非常 好 的 支持 ， 下 面 的 程序 实现 了 一 个 卷 积 层 的 前 
向 传播 过 程 。 从 以 下 代码 可 以 看 出 ， 通 过 TensorFlow 实现 卷 积 层 是 非常 方便 的 。 


# 通过 tf.get_variable 的 方式 创建 过 滤器 的 权重 变量 和 偏 置 项 变量 。 上 面 介绍 了 卷 积 层 
# 的 参数 个 数 只 和 过 滤器 的 尺寸 、 深 度 以 及 当前 层 节 点 矩阵 的 深度 有 关 ， 所 以 这 里 声明 的 参数 变 
# 量 是 一 个 四 维 矩 阵 ， 前 面 两 个 维度 代表 了 过 滤器 的 矿 寸 ， 第 三 个 维度 表示 当前 层 的 深度 ， 第 四 
# 个 维度 表示 过 滤器 的 深度 。 
filter weight = tf.get Variable'( 
'weights'y [5r 5S5, 3,: 16]; 
initializer=tf.truncated normal initializer(stddev=0.1)) 
# 和 卷 积 层 的 权重 类 似 ， 当 前 层 矩 了 泗 上 不 同位 置 的 偏 置 项 也 是 共享 的 ， 所 以 总 共有 下 一 层 深 度 个 不 
# 同 的 偏 置 项 。 本 样 例 代码 中 16 为 过 滤器 的 深度 ， 也 是 神经 网 络 中 下 一 层 节 点 答 阵 的 深度 。 
biases = tf.get Variablel( 
'biases', [16], initializer=tf,.constant initializer(0.1)) 


# tf.nn.conv2d 提供 了 一 个 非常 方便 的 函数 来 实现 卷 积 层 前 向 传播 的 算法 。 这 个 函数 的 第 一 个 输 
# 入 为 当前 层 的 节点 矩阵 。 注 意 这 个 矩阵 是 一 个 四 维 矩 阵 ， 后 面 三 个 维度 对 应 一 个 节点 矩阵 ， 第 一 
# 维 对 应 一 个 输入 batch。 比如 在 输入 层 , input[0，:，:，:] 表 示 第 一 张 图 片 , input[1,:,:,:] 
# 表示 第 二 张 图 片 ， 以 此 类 推 。tf.nn.conv2d 第 二 个 参数 提供 了 卷 积 层 的 权重 ， 第 三 个 参数 为 不 
# 同 维度 上 的 步 长 。 昌 然 第 三 个 参数 提供 的 是 一 个 长 度 为 4 的 数组 ， 但 是 第 一 维和 最 后 一 维 的 数字 
# 要 求 一 定 是 1。 这 是 因为 卷 积 层 的 步 长 只 对 和 抢 阵 的 长 和 宽 有 效 。 最 后 一 个 参数 是 填充 《Badding ) 
# 的 方法 ，TensorFlow 中 提供 SAME 或 是 VALID 两 种 选择 。 其 中 SAME 表示 添加 全 0 填充 〈 如 
# 图 6-11 所 示 ),“VALID” 表 示 不 添加 (如 图 6-10 所 示 )。 
conv = tf.nn.conv2d!l 

input, filter weight, strides=[1, 1, 1, 1], padding="'SAME'") 


# tf.nn.bias_add 提 供 了 一 个 方便 的 函数 给 每 一 个 节点 加 上 偏 置 项 。 注意 这 里 不 能 直接 使 用 加 
# 法 ， 因 为 矩阵 上 不 同位 置 上 的 节点 都 需要 加 上 同样 的 偏 置 项 。 如 图 6-13 所 示 ， 虽 然 下 一 层 神 
# 经 网 络 的 大 小 为 2x2， 但 是 偏 置 项 只 有 一 个 数 〈 因 为 深度 为 1)， 而 2x2 和 矩阵 中 的 每 一 个 值 都 需 
# 要 加 上 这 个 偏 置 项 。 

bias = tf,.nn.bias add(conv, biases) 

# 将 计算 结果 通过 ReLU 激活 函数 完成 去 线性 化 。 


actived conv = tf.nn.relul(bias) 


6.3.2” 池 化 层 
6.2 节 介绍 过 卷 积 神经 网 络 的 大 致 架构 。 从 图 6-7 中 可 以 看 出 ， 在 卷 积 层 之 间 往 往 会 加 
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上 一 个 池 化 层 (pooling layer)。 池 化 层 可 以 非常 有 效 地 缩小 矩阵 的 尺寸 "“， 从 而 减少 最 后 全 连 
接 层 中 的 参数 。 使 用 池 化 层 既 可 以 加 快 计算 速度 也 有 防止 过 拟 合 问题 的 作用 ”。 

和 6.3,1 小 节 中 介绍 的 卷 积 层 类 似 , 池 化 层 前 向 传播 的 过 程 也 是 通过 移动 一 个 类 似 过 渡 
器 的 结构 完成 的 。 不 过 池 化 层 过 滤器 中 的 计算 不 是 节点 的 加 权 和 ， 而 是 采用 更 加 简单 的 最 
大 值 或 者 平均 值 运 算 。 使 用 最 大 值 操作 的 池 化 层 被 称 之 为 最 大 池 化 层 (max pooling)， 这 是 
被 使 用 得 最 多 的 池 化 层 结 构 。 使 用 平均 值 操 作 的 池 化 层 被 称 之 为 平均 池 化 层 (average 
pooling)。 其 他 池 化 层 在 实践 中 使 用 的 比较 少 ， 本 书 不 做 过 多 的 介绍 ， 

与 卷 积 层 的 过 滤器 类 似 ， 池 化 层 的 过 滤器 也 需要 人 工 设 定 过 滤器 的 尺寸 、 是 否 使 用 全 
0 填充 以 及 过 滤器 移动 的 步 长 等 设置 ， 而 且 这 些 设置 的 意义 也 是 一 样 的 。 卷 积 层 和 池 化 层 
中 过 滤器 移动 的 方式 是 相似 的 ， 唯 一 的 区 别 在 于 卷 积 层 使 用 的 过 滤器 是 横 跨 整个 深度 的 ， 
而 池 化 层 使 用 的 过 滤器 只 影响 一 个 深度 上 的 节点 。 所 以 池 化 层 的 过 滤器 除了 在 长 和 宽 两 个 
维度 移动 之 外 ， 它 还 需要 在 深度 这 个 维度 移动 。 图 6-14 展示 了 一 个 最 大 池 化 层 前 向 传播 计 
算 过 程 。 





图 6-14 3X3X2 节 点 矩阵 经 过 全 0 填充 且 步 长 为 2 的 最 大 池 化 层 前 问 传播 过 程 示 意图 。 


中 池北 层 主 要 用 于 减 小 矩阵 的 长 和 宽 。 虽 然 池 化 层 也 可 以 减 小 矩阵 深度 ， 但 是 实践 中 一 般 不 会 这 样 使 用 。 

四 有 研究 指出 池 化 层 对 模型 效果 的 影响 不 大 ,有 具体 细节 可 以 参考 ; SpringenbergJT Dosovitskiy A, Brox TT, 
et al. Striving for Simplicity: The du Convoiutional Net [J]. Eprint Arxiv, 2014, 不 过 目前 主流 的 卷 积 神经 网 
络 模型 中 都 含有 池 化 层 。 
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在 图 6-14 中 ， 不 同 颜 色 或 者 不 同 线段 (虚线 或 者 实 线 〉 代 表 了 不 同 的 池 化 层 过 滤器 。 
从 图 6-14 中 可 以 看 出 ， 闻 化 层 的 过 滤器 除了 在 长 和 宽 的 维度 上 移动 ， 它 还 需要 在 深度 的 维 
度 上 移动 。 下 面 的 TensorFlow 程序 实现 了 最 大 池 化 层 的 前 网 传播 算法 。 


# tf.nn, max PooI 实现 了 最 大 池 化 层 的 前 向 传播 过 程 ， 它 的 参数 和 ftE.nn.conv2d 函数 类 似 ， 

# ksize 提供 了 过 滤器 的 尺寸 ，strides 提供 了 步 长 信息 ，padding 提供 了 是 否 使 用 全 0 填充 。 

Pool = tfnn.max pool (actived conv, ksize=[l; 3; 3, 1],， 

strides=[1, 2, 2, 1], padding="'SAME') 

对 比 池 化 层 和 卷 积 层 前 向 传播 在 TensorFlow 中 的 实现 ， 可 以 发 现 函 数 的 参数 形式 是 相 
似 的 .在世 an.max pool 函数 中 ,首先 需要 传 入 当前 层 的 节点 矩阵 ， 这 个 矩阵 是 一 个 四 维 矩 
阵 ; 格式 和 共 nn.convy2d 函数 中 的 第 一 个 参数 一 致 。 第 二 个 参数 为 过 滤器 的 尺寸 。 虽 然 给 出 
的 是 一 个 长 度 为 4 的 一 维 数组 ， 但 是 这 个 数组 的 第 一 个 和 最 后 一 个 数 必 须 为 1。 这 意味 着 
池 化 层 的 过 滤器 是 不 可 以 路 不 同 输入 样 例 或 者 节点 矩阵 次 度 的 。 在 实际 应 用 中 使 用 得 最 多 
的 池 化 层 过 滤器 尺寸 为 [1,2,2,1] 或 者 [1,3,3,1]。 

tf.nn,max_pool 函数 的 第 三 个 参数 为 步 长 ， 它 和 让 nn.conv2d 函数 中 步 长 的 意义 是 一 样 
的 ， 而 且 第 一 维和 最 后 一 维 也 只 能 为 1。 这 意味 着 在 TensorFlow 中 ， 池 化 层 不 能 减少 节操 
矩阵 的 深度 或 者 输入 样 例 的 个 数 。ttnn.max peol 函数 的 最 后 一 个 参数 指定 了 是 和 否 使 用 全 0 
填充 。 这 个 参数 也 只 有 两 种 取 值 一 一 VALID 或 者 SAME， 其 中 VALID 表示 不 使 用 全 0 填 
充 ，SAME 表示 使 用 全 0 填充 。TensorFlow 还 提供 了 给 nn.avg_peol 来 实现 平均 池 化 层 。 
tfnn.avg_pool 函数 的 调用 格式 和 给 nn.max_pool 国 数 是 一 致 的 。 


6.4 ”经 典 卷 积 网 络 模 型 


在 6.3 小 节 中 介绍 了 卷 积 神经 网 络 特有 的 两 种 网 络 结构 一 一 郑 积 层 和 池 化 层 。 然 而 ， 
通过 这 些 网 络 结构 任意 组 合 得 到 的 神经 网 络 有 无 限 多 种 ， 怎 样 的 神经 网 络 更 有 可 能 解决 真 
实 的 图 像 处 理 问题 呢 ? 这 一 节 将 介绍 一 些 经 典 的 卷 积 神经 网 络 的 网 络 结构 。 通 过 这 些 经 典 
的 卷 积 神经 网 络 的 网 络 结构 可 以 总 结 出 卷 积 神经 网 络 结构 设计 的 一 些 模式 , 在 6.4.1 小 节 中 
将 具体 介绍 LeNet-5 模型 ， 并 给 出 一 个 完整 的 TensorFlow 程序 来 实现 LeNet-5 模型 。 通 过 
这 个 模型 ,将 给 出 卷 积 神经 网 络 结构 设计 的 一 个 通用 模式 。 然 后 6.4.2 小 节 将 介绍 设计 卷 积 
神经 网 络 结构 的 另外 一 种 思路 一 一 Inception 模型 。 这 个 小 节 将 简单 介绍 TensorFlow-Slim 工 
具 ， 并 通过 这 个 工具 实现 谷歌 提出 的 Inception-v3 模型 中 的 一 个 模块 。 
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6.4.1 LeNet--5 模型 


LeNet-5 模型 是 Yann LeCun 教授 于 1998 年 在 论文 Gradient-based learning applied to 
document recognition" 中 提出 的 ， 它 是 第 一 个 成 功 应 用 于 数字 识别 问题 的 卷 积 神经 网 络 。 在 
MNIST 数据 集 上 ，LeNet-5 模型 可 以 达到 大 约 99.2% 的 正确 率 。LeNet-5 模型 总 共有 7 层 ， 


6-15 展示 了 LeNet-5 模型 的 架构 。 
i NN 


一 | 
| Fuleondection | Gausslan conneclions 
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6-15 LeNet-5 模型 结构 图 


在 下 面 的 篇 幅 中 将 详细 介绍 LeNet-5 模型 每 一 层 的 结构 。 

这 一 层 的 输入 就 是 原始 的 图 像 像素 ，LeNet-5 模型 接受 的 输入 层 大 小 为 32x32x1。 第 一 
个 卷 积 层 过 滤器 的 尺寸 为 5x5， 深 度 为 6， 不 使 用 全 0 填充 ， 步 长 为 1。 因 为 没有 使 用 全 0 
填充 ， 所 以 这 一 层 的 输出 的 尺寸 为 32-5+1=28， 深 度 为 6。 这 一 个 卷 积 层 总 共有 
5x5x1x6+6=156 个 参数 ， 其 中 6 个 为 偏 置 项 参数 。 因 为 下 一 层 的 节点 矩阵 有 28x28x6=4704 
个 节点 ， 每 个 节点 和 5x5=25 个 当前 层 节 点 相连 ， 所 以 本 层 卷 积 层 总 共有 
4704x(25+1)=122304 个 连接 。 

第 二 层 ， 池 化 层 

这 一 层 的 输入 为 第 一 层 的 输出 ， 是 一 个 28x28x6 的 节点 矩阵 。 本 层 采 用 的 过 滤器 大 小 
为 2x2， 长 和 宽 的 步 长 均 为 2， 所 以 本 层 的 输出 矩阵 大 小 为 14x14x6。 原 始 的 LeNet-5 模型 


Q Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to doceument recognition [J]. Proceedings 
of the IEEE, 1998. 

@ 此 图 片 来 自 论文 Gradient-based learning applied to document recognition。 

@@ 论文 GradientBased Learning Applied to Document Recognition 提出 的 LeNet-5 模型 中 ， 卷 积 层 和 池 化 层 
的 实现 与 6.3 节 中 介绍 的 TensorFlow 的 实现 有 细微 的 区 别 ， 本 书 不 过 多 的 讨论 具体 细节 ， 而 是 着 重 介 
绍 模型 的 整体 框架 。 
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中 使 用 的 过 滤器 和 6.3.2 小 书 介 绍 的 有 些 细微 差别 ， 本 书 不 做 具体 介绍 。 

第 三 层 ， 老 积 层 

本 层 的 输入 矩阵 大 小 为 14x14x6， 使 用 的 过 滤器 大 小 为 5x5， 深 度 为 16。 本 层 不 使 用 
全 0 填充 ， 步 长 为 1。 本 层 的 输出 矩阵 大 小 为 10x10x16。 按 照 标准 的 卷 积 层 ， 本 层 应 该 有 
5x5x6x16+16=2416 个 参数 ，10x10x16x (25+1) =41600 个 连接 。 

第 四 层 ， 池 化 层 

本 层 的 输入 算 阵 大 小 为 10x10x16， 采 用 的 过 滤器 大 小 为 2x2， 步 长 为 2。 本 层 的 输出 
矩阵 大 小 为 5x5x16。 

第 五 层 ， 全 连接 层 

本 层 的 输入 矩阵 大 小 为 5x5x16， 在 LeNet-5 模型 的 论文 中 将 这 一 层 称 为 卷 积 层 ， 但 是 
因为 过 滤器 的 大 小 就 是 5x5， 所 以 和 全 连接 层 没 有 区 别 ， 在 之 后 的 TensorFlow 程序 实现 中 
也 会 将 这 一 层 看 成 全 连接 层 。 如果 将 5x5x16 和 矩阵 中 的 节点 拉 成 一 个 向 量 , 那么 这 一 层 和 在 
第 4 章 中 介绍 的 全 连接 层 输入 就 一 样 了 。 本 层 的 输出 节点 个 数 为 120， 总 共有 
5x5x16x120+120=48120 个 参数 。 

第 六 层 ， 全 连接 层 

本 层 的 输入 节点 个 数 为 120 个 ， 输 出 节点 个 数 为 84 个 ,总共 参数 为 120x84+84=10164 


第 七 层 ， 全 连接 层 ? 
本 层 的 输入 节点 个 数 为 84 个 ， 输 出 节点 个 数 为 10 个 ， 总 共 参 数 为 84xI0+10=850 个 。 
上 面 介绍 了 LeNet-5 模型 每 一 层 结构 和 设置 ， 下 面 给 出 一 个 TensorFlow 的 程序 来 实现 
一 个 类 似 LeNet-5 模型 的 卷 积 神经 网 络 来 解决 MNIST 数字 识别 问题 。 通 过 TensorFlow 训 
练 卷 积 神经 网 络 的 过 程 和 第 5 章 中 介绍 的 训练 全 连接 神经 网 络 是 完全 一 样 的。 损失 函数 
的 计算 、 反 向 传播 过 程 的 实现 都 可 以 复 用 5.5 节 中 给 出 的 mnist train.py 程序 。 唯 一 的 区 
别 在 于 因为 卷 积 神经 网 络 的 输入 层 为 一 个 三 维 矩 阵 , 所 以 需要 调整 一 下 输入 数据 的 格式 : 
# 调整 输入 数据 Placeholaez 的 格式 ， 输 入 为 一 个 四 维和 矩阵 。 
x = tf.placeholder (tf.float32, | : | 
BATCH SIZE, # 第 一 维 表 示 一 个 batch 中 样 例 的 个 数 。 
mnist inference,IMAGE SIZE,  # 第 二 维和 第 三 维 表示 图 片 的 尺寸 。 
mnist InEterence IMAGE SIZE, 
mnist inference.NUM CHRNNELS1, # 第 四 维 表 示 图 片 的 深度 ， 对 于 RBG 格 
# 式 的 图 片 ， 深 度 为 5。 


name='x-input’) 


四 LeNet-5 模型 论文 中 最 后 一 层 输 出 层 的 结构 和 全 连接 层 有 区 别 ， 但 我 们 这 用 全 连接 层 近 似 的 表示 。 
150 


ww albbt.com DODOUDUDDDD 





第 6 章 图 像 识别 与 卷 积 神经 网 络 


# 类 似 地 将 输入 的 训练 数据 格式 调整 为 一 个 四 维和 矩 阵 , 并 将 这 个 调整 后 的 数据 传 入 sess .run 过 程 。 
reshaped xs = np.reshape(xs, (BATCH SIZE, 

mnist inference.IMAGE SIZE, 

mist inference.IMAGE SIZE, 

mnist inference.NUM CHANNELS)) 


在 调整 完 输入 格式 之 后 ， 只 需要 在 程序 mnist_inference.py 中 实现 类 似 LeNet-5 模型 结 
构 的 前 问 传 播 过 程 即 可 。 下 面 给 出 了 修改 后 的 mnist_infernece.py 程序 。 


# -*—- Coding: utf-8 一 * 一 
import tensorflow as tf 


# 配置 神经 网 络 的 参数 。 
INPUT NODE = 784 
OUTPUT NODE = 10 


IMAGE SIZE = 28 
NUM CHANNELS = 1 
NUM LABELS = 10 


# 第 一 层 卷 积 层 的 尺寸 和 深度 。 
CONV1 DEEP = 32 

CONV1 SIZE = 5 

# 第 二 层 卷 积 层 的 尺寸 和 深度 。 
CONV2 DEEP = 64 

CONV2 SIZE = 5 

# 全 连接 层 的 节点 个 数 。 
FC _ SIZE = 512 


# 定义 卷 积 神经 网 络 的 前 向 传播 过 程 。 这 里 添加 了 一 个 新 的 参数 train， 用 于 区 分 训练 过 程 和 测试 
# 过 程 。 在 这 个 程序 中 将 用 到 dropout 方法 , dropout 可 以 进一步 提升 模型 可 靠 性 并 防止 过 拟 合 ， 
# dropout 过 程 只 在 训练 时 使 用 。 
def inference (InPut tensor, train,. regularizer): : 

# 声明 第 一 层 卷 积 层 的 变量 并 实现 前 向 传播 过 程 。 这 个 过 程 和 6.3.1 小节 中 介绍 的 一 致 。 

# 通过 使 用 不 同 的 命名 空间 来 隔离 不 同 层 的 变量 ， 这 可 以 让 每 一 层 中 的 变量 命名 只 需要 

# 考虑 在 当前 层 的 作用 ， 而 不 需要 担心 重 名 的 问题 。 和 标准 LeNet-5 模型 不 大 一 样 ， 这 里 

# 定义 的 卷 积 层 输入 为 28x28x1 的 原始 MNIST 图 片 像素 。 因 为 卷 积 层 中 使 用 了 全 0 填充 ， 

# 所 以 输出 为 28x28x32 的 矩阵 。 

with tf.variable scope('layerl-convl'): 

convl1 weights = tf.get variablel 


QD 关于 dropout 的 详情 可 以 参考 论文 Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural 
networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012， 


| 151 


ww albbt.com DODODDDDOD 





TensorFlow: 实战 Google 深度 学 习 框 架 


"weight", [CONVI SIT2ZE，CONV1 SIZE, NUM CHANNELS, CONV1_DEEP] ， 
initializer=tf.truncated normal initializer(stddev=0.1)) 

convl1 biases = tf.get variable 
"bias", [CONV]1 DEEP], initializer=tf. constant initializer(0.0)) 


# 使 用 边 长 为 5， 深 度 为 32 的 过 滤器 ， 过 滤器 移动 的 步 长 为 1， 且 使 用 全 0 填充 。 
convl = tf.nn.conv2d! 

input tensor, convl1 weights, strides=[1, 1, 1, 1], padding="SAME') 
relul = tf.nn.relu(tf.nn.bias add(convil, convl biases)) 


# 实现 第 二 层 池 化 层 的 前 向 传播 过 程 。 这 里 选用 最 大 池 化 层 ， 池 化 层 过 滤器 的 边 长 为 2， 
# 使 用 全 0 填充 且 移 动 的 步 长 为 2。 这 一 层 的 输入 是 上 一 层 的 输出 ， 也 就 是 28x28x32 
# 的 矩阵 。 输 出 为 14x14x32 的 矩阵 。 
with tf.name scope('layer2-poo011'): 
pooll = tf.nn.max Pool 
relul, ksize=[1, 2, 27 1], strides=[], 2, 2; 1], padding="SAME') 


# 声明 第 三 层 卷 积 层 的 变量 并 实现 前 向 传播 过 程 。 这 一 层 的 输入 为 14x14x32 的 矩阵 。 
# 输出 为 14x14x64 的 矩阵 。 
with tf.variable scope('layer3-conv2'): 
conv2 weights = tf.get Variable 
"weight", [CONV2 SIZE, CONV2 SIZE, CONV]1 DEEP, CONV2 _ DEEP], 
initializer=tf.truncated normal initializer (stddev=0.1)) 
conv2 biases = tf.get Variable ( 
"bias", [CONV2 DEEP], 
initializer=tf. constant initializer(0.0)) 


# 使 用 边 长 为 5， 深度 为 64 的 过 滤器 ， 过 滤器 移动 的 步 长 为 1， 且 使 用 全 0 填充 。 
conv2 = tft.nn.convVv2aQ( 

pooll, conv2 weights, strides=[1, 1, 1, 1], padding='SAME') 
relu2 = tf.nn.relul(tf.nn.bias add(conv2, conv2 biases)) 


# 实现 第 四 层 池 化 层 的 前 向 传播 过 程 。 这 一 层 和 第 一 层 的 结构 是 “入 的 。 这 层 交 往生 放 
# 14x14x64 的 矩阵 ， 输 出 为 7x7x64 的 矩阵 。 
with tf.name scopel('layer4-pool12'): 
Pool2 = tf.nn.max pooll( 
relu2, ksize=[], 2,; 2, 1], strides=[1, 2, 2, 1], padding="'SAME") 


# 将 第 四 层 池 化 层 的 输出 转化 为 第 五 层 全 连接 层 的 输入 格式 。 第 四 层 的 输出 为 7x7x64 的 矩阵 ， 
# 然而 第 五 层 全 连接 层 需 要 的 输入 格式 为 向 量 , 所 以 在 这 里 需要 将 这 个 7x7x64 的 矩阵 拉 直 成 一 
# 个 向 量 。poo12.get shape 函数 可 以 得 到 第 四 层 输出 矩阵 的 维度 而 不 需要 手工 计算 。 注 意 
# 因为 每 一 层 神经 网 络 的 输入 输出 都 为 一 个 batch 的 矩阵 ， 所 以 这 里 得 到 的 维度 也 包含 了 一 个 
# batch 中 数据 的 个 数 。 

Pool shape = pool2.get shape().as_ list() 
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# 计算 将 矩阵 拉 直 成 向 量 之 后 的 长 度 ， 这 个 长 度 就 是 矩阵 长 宽 及 深度 的 乘积 。 注 意 这 里 
# Pool_shape [0] 为 一 个 batch 中 数据 的 个 数 。 
nodes = pool shape[1] * pool _ shape[2] * pool _ shape[3] 


# 通过 tf.reshape 函数 将 第 四 层 的 输出 变 成 一 个 batch 的 向 量 。 
reshaped = tf.reshape (pool2, [pool shape[0], nodes]) 


# 声明 第 五 层 全 连接 层 的 变量 并 实现 前 向 传播 过 程 。 这 一 层 的 输入 是 拉 直 之 后 的 一 组 向 量 ， 
# 向 量 长 度 为 3136， 输 出 是 一 组 长 度 为 512 的 向 量 。 这 一 层 和 之 前 在 第 5 章 中 介绍 的 基本 
# 一 致 ， 唯 一 的 区 别 就 是 引入 了 dropout 的 概念 。dropout 在 训练 时 会 随机 将 部 分 节点 的 
# 输出 改 为 0。dropout 可 以 避免 过 拟 合 问题 ， 从 而 使 得 模型 在 测试 数据 上 的 效果 更 好 。 
# dropout 一 般 只 在 全 连接 层 而 不 是 卷 积 层 或 者 池 化 层 使 用 。 
with tf.variable scope('layer5-fcl'): 
fcl weights = tf.get variablel 
"weight", [nodes, FC SIZE], 
initializer=tf.truncated normal initializer(stddev=0.1)) 
# 只 有 全 连接 层 的 权重 需要 加 入 正则 化 。 
if regularizer != None: 
tf.add to collection('losses', regularizer(fcl weights)) 
fcl biases = tf.get variable( 
"pias", [FC SIZE], initializer=tf.constant initializer(0.1)) 


fcl = tf.nn.relu(tf.matmul (reshaped, fcl weights) + fcl biases) 
if train: fcl = tf.nn.dropout (fcl, 0.5) 


# 声明 第 六 层 全 连接 层 的 变量 并 实现 前 向 传播 过 程 。 这 一 层 的 输入 为 一 组 长 度 为 512 的 向 量 ， 
# 输出 为 一 组 长 度 为 10 的 向 量 。 这 一 层 的 输出 通过 Softmax 之 后 就 得 到 了 最 后 的 分 类 结果 。 
with tf.variable scope('layer6-fc2'): 
fc2 weights = tf.get variablel( 
"weight", [FC SIZE, NUM LABELS], 
initializer=tf.truncated normal initializer(stddev=0.1)) 
if regularizer != None: : 
tf.add to collection('losses', regularizer (fc2 weights)) 
fc2 biases = tf.get variablel( 
"bias", [NUM LABELS], 
initializer=tf, constant initializer(0.1)) 
logit = tf.matmul (fcl, fc2 weights) + fc2 biases 


# 返回 第 六 层 的 输出 。 


return logit 


运行 修改 后 的 mnist_train.py， 可 以 得 到 类 似 第 5 章 中 的 输出 : 
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~/mnist$ Python mnist train.py 

Extracting /tmp/data/train-images-idx3-uUbyte.gz 

Extracting /tmp/data/train-labels-idxl-ubyte.gz 

Extracting /tmp/data/tl0k-images-idx3-ubyte.gz 

Extracting /tmp/data/tl0k-labels-idxl-ubyte.gz 

After 1 training step(s), loss on training batch is 6.45373， 
After 1001 training step(s), loss on training batch is 0.824825. 
After 2001 training step(s), loss on training batch is 0.646993. 
After 3001 training step(s), loss on training batch is 0.759975 . 
After 4001 training step(s), loss on training batch is 0.68468.. 
After 5001 training stepl(ls), loss on training batch is 0.630368. 


类 似 地 修改 第 5 章 中 给 出 的 mnist_eval.py 程序 输入 部 分 ， 就 可 以 测试 这 个 卷 积 神经 网 
络 在 MNIST 数据 集 上 的 正确 率 了 。 在 MINIST 测试 数据 上 ， 上 面 给 出 的 卷 积 神经 网 络 可 以 
达到 大 约 99.4% 的 正确 率 。 相 比 第 5 章 中 最 高 的 98.4% 的 正确 率 ， 卷 积 神经 网 络 可 以 巨 幅 
提高 神经 网 络 在 MNIST 数据 集 上 的 正确 率 。 

然而 一 种 卷 积 神经 网 络 架 构 不 能 解决 所 有 问题 。 比 如 LeNet-5 模型 就 无 法 很 好 地 处 理 
类 似 ImageNet 这 样 比较 大 的 图 像 数据 集 。 那 么 如 何 设计 卷 积 神经 网 络 的 架构 呢 ? 下 面 的 正 
则 表达 式 公式 总 结 了 一 些 经 典 的 用 于 图 片 分 类 问题 的 卷 积 神经 网 络 架构 : 

答 入 层 一 《〈 卷 积 层 + 一 池 化 层 ? ) + 一 全 连接 层 + 

在 上 面 的 公式 中 ,“ 卷 积 层 +” 表 示 一 层 或 者 多 层 卷 积 层 ， 大 部 分 卷 积 神经 网 络 中 一 般 
最 多 连续 使 用 三 层 卷 积 层 。“ 池 化 层 ? ”表示 没有 或 者 一 层 池 化 层 。 池 化 层 虽 然 可 以 起 到 城 
少 参数 防止 过 拟 合 问题 ， 但 是 在 部 分 论文 中 也 发 现 可 以 直接 通过 调整 卷 积 层 步 长 来 完成 ”。 
所 以 有 些 卷 积 神经 网 络 中 没有 池 化 层 。 在 多 轮 卷 积 层 和 池 化 层 之 后 ， 卷 神经 网 络 在 输出 之 
前 一 般 会 经 过 1~2 个 全 连接 层 。 比 如 LeNet-5 模型 就 可 以 表示 为 下 面 的 结构 。 

输入 层 一 卷 积 层 一 池 化 层 一 卷 积 层 一 池 化 层 一 全 连接 层 一 全 连接 层 一 输出 层 

除了 LeNet-5 模型 ，2012 年 ImageNet ILSVRC 图 像 分 类 挑战 的 第 一 名 AlexNet 模型 、 
2013 年 ILSVRC 第 一 名 ZF Net 模型 以 及 2014 年 2014 年 第 二 名 VGGNet 模型 的 架构 都 满 
足 上 面 介 绍 的 正则 表达 式 。 表 6-1 给 出 了 VGGNet 论文 Very Deep Convolutional Networks for 
Large-Scale Image Recognition 中 作者 尝试 过 的 不 同 卷 积 神经 网 络 架 构 。 从 表 6-1 中 可 以 看 
出 这 些 卷 积 神经 网 络 架 构 都 满足 介绍 的 正则 表达 式 。 


QD) 具体 可 以 参考 论文 Striving for Simplicity: The All Convolutional Net: 
@ Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition [可 . 
Computer Science, 2014. 
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表 6-1 VGGNet 模型 论文 中 尝试 过 的 卷 积 神经 网 络 架 构 岂 ) 
(其 中 conv* 表 示 卷 积 层 ，maxpool 表示 池 化 层 ，FC-* 表 示 全 连接 层 ，soft-max 为 softmax 结构 ) 






input (224 x 224 RGB imae 


) 
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maxpo 
. | conv3-128 | convi-[I28 | conv3-128 | conv3-128 
| 

maxpooj 
Cony3-256 | conv3-256 | conv3-256 | conv3-230 | conv3-256 | conv3-256 
cony3-256 | conv3-256 | conv3-256 | conv3-256 | comv3-25060 | cony3-256 
conmvl-256 | gonv3-256 | conv3-256 
conv3-256 

maNpov 
cony3-S$12 | oniy3-512 | cony3-312 | eonvi-512 | conv3-512 | conv3-312 
CoNV3-512 | eonv3-512 | conv3-$12 | conv3-5l2 | 5onV3-512 | conv3-512 
wonvi-Si2 | womv3-512 | conv3-512 
conv3-512 

nraxnoo 
cnny3-S12 | conv3-512 | conva-3l2 | eonv3-512 | conv3-312 | comnvi-512 
conv3-3}j2 | conv3-512 | conv3-312 | Conv3-S12 | cony3-513 | conv3-512 
ConVv]-S12 | cunv3-S12 | conv3-512 
cony3-512 

D 

FC-4096 









FC-1000 






有 了 卷 积 神经 网 络 的 架构 ， 那 么 每 一 层 卷 积 层 或 者 池 化 层 中 的 配置 需要 如 何 设置 呢 ? 
表 6-1 也 提供 了 很 和 多 线索 。 在 表 6-1 中 ，conVX-Y 表示 过 滤器 的 边 长 为 义 ， 深 度 为 Y。 比 如 
conv3-64 表示 过 滤器 的 长 和 宽 都 为 3， 深 度 为 人 4。 从 表 6-] 中 可 以 看 出 ，VGG Net 中 的 过 
滤器 边 长 一 般 为 3 或 者 1。 在 LeNet-5 模型 中 , 也 使 用 了 边 长 为 5 的 过 滤器 。 一般 卷 积 层 的 
过 滤器 边 长 不 会 超过 35， 但 有 些 卷 积 神经 网 络 结构 中 ， 处 理 输入 的 卷 积 层 中 使 用 了 边 长 为 7 
甚至 是 11 的 过 滤器 。 

在 过 滤器 的 深度 上 ， 大 部 分 卷 积 神经 网 络 都 采用 逐 层 递增 的 方式 。 比 如 在 表 6-1 中 可 
以 看 到 ， 每 经 过 一 次 池 化 层 之 后 ， 卷 积 层 过 滤器 的 深度 会 乘 以 2。 虽 然 不 同 的 模型 会 选择 
使 用 不 同 的 具体 数字 ， 但 是 逐 层 递增 是 比较 普遍 的 模式 。 卷 积 层 的 步 长 一 般 为 1， 但 是 在 
有 些 模 型 中 也 会 使 用 2， 或 者 3 作为 步 长 。 池 化 层 的 配置 相对 简单 ， 用 的 最 多 的 是 最 大 池 
化 层 。 池 化 层 的 过 滤器 边 长 一 般 为 2 或 者 3， 步 长 也 一 般 为 2 或 者 3。 


6.4.2 Inception—v3 模型 


在 6.4.1 小 节 中 通过 介绍 LeNet-5 模型 整理 出 了 一 类 经 典 的 疮 积 神经 网 络 架构 设计 。 在 
这 一 小 节 中 将 介绍 Inception 结构 以 及 Inception-v3 卷 积 神经 网 络 模型 。Inception 结构 是 一 


全 此 表 源 自 论 文 ery Deep Convolutional Networks for Large-Scale Image Recognitions 
155 


ww ai bbt.com DODODDDDOD 





TensorFlow: 实战 Google 深度 学 习 框 架 


种 和 LeNet-5 结构 完全 不 同 的 卷 积 神经 网 络 结构 。 在 LeNet-5 模型 中 ， 不 同 卷 积 层 通过 串 
联 的 方式 连接 在 一 起 ， 而 Inception-v3 模型 中 的 Inception 结构 是 将 不 同 的 卷 积 层 通 过 并 联 
的 方式 结合 在 一 起 。 在 下 面 的 篇 幅 中 将 有 具体 介绍 Inception 结构 ， 并 通过 TensorFlow-Slim 
工具 来 实现 Inception-v3 模型 中 的 一 个 模块 。 

在 6.4.1 中 提 到 了 一 个 卷 积 层 可 以 使 用 边 长 为 1、3 或 者 5 的 过 滤器 ， 那 么 如 何在 这 些 
边 长 中 选 呢 ?Inception 模块 给 出 了 一 个 方案 ， 那 就 是 同时 使 用 所 有 不 同 尺寸 的 过 滤器 ， 然 
后 再 将 得 到 的 矩阵 拼接 起 来 。 图 6-16 给 出 了 Inception 模块 的 一 个 单元 结构 示意 图 。 


输入 征 阵 Inceptiai 趾 问 银 类 





图 6-16 ”JInception 模块 示意 图 。 


从 图 6-16 中 可 以 看 出 ，Inception 模块 会 首先 使 用 不 同 尺 寸 的 过 滤器 处 理 输入 和 矩阵。 在 
6-16 中 ， 最 上 方 矩阵 为 使 用 了 边 长 为 1 的 过 滤器 的 卷 积 层 前 向 传播 的 结果 。 类 似 的 ， 中 
间 矩 阵 使 用 的 过 滤器 边 长 为 3, 下方 矩 阵 使 用 的 过 滤器 边 长 为 5 不 同 的 矩阵 代表 了 Inception 
模块 中 的 一 条 计算 路 径 。 虽 然 过 滤器 的 大 小 不 同 ， 但 如 果 所 有 的 过 滤器 都 使 用 全 0 填充 且 
步 长 为 1， 那 么 前 向 传播 得 到 的 结果 和 矩阵 的 长 和 宽 都 与 输入 矩阵 一 致 。 这 样 经 过 不 同 过 滤 
入 处 理 的 结果 矩阵 可 以 拼接 成 一 个 更 深 的 矩阵 。 如 图 6-16 所 示 ， 可 以 将 它们 在 深度 这 个 维 
度 上 组 合 起 来 。 

图 6-16 所 示 的 Inception 模块 得 到 的 结果 和 矩阵 的 长 和 宽 与 输入 一 样 , 滩 度 为 红 黄 蓝 三 个 
矩阵 深度 的 和 。 图 6-16 中 展示 的 是 Inception 模块 的 核心 思想 ， 真 正在 Inception-v3 模型 中 
使 用 的 Inception 模块 要 更 加 复杂 且 多 样 ， 有 兴趣 的 读者 可 以 参考 论文 Rethinking the 
JInception 4Architecture for Computer Vision 。 图 6-17 给 出 了 Inception-v3 模型 的 架构 图 。 


QD Szegedy C, Vanhoucke V, Toffe S, et al. Rethinking the Inception Architecture for Computer Vision[J]. 
Computer Science, 2015., 
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6-17 Inception-v3 模型 架构 图 


Inception-v3 模型 总 共有 46 层 ， 由 11 个 Inception 模块 组 成 。 图 6-17 中 方 框 标注 出 来 
的 结构 就 是 一 个 Inception 模块 。 在 Inception-v3 模型 中 有 96 个 卷 积 层 ， 如 果 将 6.4.1 小 节 
中 的 程序 直接 搬 过 来 ， 那 么 一 个 卷 积 层 就 需要 $ 行 代 码 ， 于 是 总 共 需 要 480 行 代码 来 实现 
所 有 的 卷 积 层 。 这 样 使 得 代码 的 可 读 性 非常 差 。 为 了 更 好 地 实现 类 似 Inception-v3 模型 这 样 
的 复杂 卷 积 神经 网 络 ， 在 下 面 将 先 介 绍 TensorFlow-Slim 工具 来 更 加 简洁 地 实现 一 个 卷 积 
层 。 以 下 代码 对 比 了 直接 使 用 TensorFlow 实现 一 个 卷 积 层 和 使 用 TensorFlow-Slim 实现 同 
样 结构 的 神经 网 络 的 代码 量 。 
# 直接 使 用 TensorFlow 原始 API 实现 卷 积 层 。 
with tf.variable scope(Scope name) : 
weights = tf.get Variable("weIght"”，…) 
biases = tf.get variable("bias", ...) 


conv = tf.nn.conv2dl(...) 
relu = tf.nn.relul(ltf.nn.bias add(conv, biases)) 


# 使 用 TensorFlow-Slim 实现 卷 积 层 。 通 过 TensorFlow-Slim 可 以 在 一 行 中 实现 一 个 卷 积 层 

# 的 前 向 传播 算法 。 slim.conv2G 函数 的 有 3 个 参数 是 必 填 的 。 第 一 个 参数 为 输入 节点 和 矩阵， 第 

# 二 参数 是 当前 卷 积 层 过 滤器 的 深度 ， 第 三 个 参数 是 过 滤器 的 尺寸 。 可 选 的 参数 有 让 

# 长 、 是 否 使 用 全 0 填充 、 激 活 函 数 的 选择 以 及 变量 的 命名 空间 等 。 

net = slim.conv2d (input, 32, [3, 3]) 

因为 完整 的 Inception-v3 模型 比较 长 ， 所 以 在 本 书 中 仅 提供 Inception-v3 模型 中 结构 相 
对 复杂 的 一 个 inception 模块 的 代码 实现 ”以 下 代码 实现 了 图 6-17 中 红色 方 框 中 的 Inception 
模块 。 


Q 在 TensorFlow 的 GitHub 代码 库 上 找到 完整 的 Inception-v3 模型 的 源码 。GitHub 的 地 址 为 
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/slim/python/slim/nets/inception_v3. 
py。 
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# slim.arg scope 函数 可 以 用 于 设置 默认 的 参数 取 值 。slim.arg_scope 函数 的 第 一 个 参数 是 
# 一 个 函数 列表 ， 在 这 个 列表 中 的 函数 将 使 用 默认 的 参数 取 值 。 比 如 通过 下 面 的 定义 ， 调用 
# slim.conv2d(net，320，[1，1]) 函数 时 会 自动 加 上 stride=1I 和 padding='SAME' 的 参 
# 数 。 如 果 在 函数 调用 时 指定 了 stride， 那 么 这 里 设置 的 默认 值 就 不 会 再 使 用 。 通过 这 种 方 我 
# 可 以 进一步 减少 元 余 的 代码 。 
with slim.arg Scope([slim.conv2G，slim.max pool2d, slim.avg pool2d], 
stride=] ,， padding="'SAME'): 


# 此 处 省 略 了 Inception-v3 模型 中 其 他 的 网 络 结构 而 直接 实现 最 后 面 红 色 方 框 中 的 。 
# Inception 结构 。 假 设 输入 图 片 经 过 之 前 的 神经 网 络 前 向 传播 的 结果 保存 在 变量 net 
# 中 。 
net = 上 一 层 的 输出 节点 矩阵 
# 为 一 个 Inception 模块 声明 一 个 统一 的 变量 命名 空间 。 
with tf.variable scope(l'Mixed 7c'): 
# 给 Inception 模块 中 每 一 条 路 径 声 明 一 个 命名 空间 。 
with tf.variable scope(l'Branch 0 7") : 
# 实现 一 个 过 滤器 边 长 为 1， 深 度 为 320 的 卷 积 层 。 
branch 0 = slim.conv2d(net, 320, [1i, 1], scope='Conv2d 0a l1x1') 


# Inception 模块 中 第 二 条 路 径 。 这 条 计算 路 径 上 的 结构 本 身 也 是 一 个 Inception 结 
# 构 。 
with tf.variable scope('Branch 1°'): 
branch 1 = slim.conv2d(net, 384, [1, 1], scope="'Conv2d 0a lxl1') 
# tf.concat 函数 可 以 将 多 个 矩阵 拼接 起 来 。tf.concat 函数 的 第 一 个 参数 指定 
# 了 拼接 的 维度 , 这 里 给 出 的 “3” 代 表 了 和 矩阵 是 在 深度 这 个 维度 上 进行 拼接 。 图 6-16 
# 中 展示 了 在 深度 上 拼接 矩阵 的 方式 。 
branch 1 = tf.concat (3，[ 
# 如 图 6-17 所 示 ， 此 处 2 层 卷 积 层 的 输入 都 是 branch_1 而 不 是 net。 
slim.conv2d (branch 1, 384, [1, 3], scope='Conv2d 0b 1x3'), 
slim.conv2d(branch 1, 384, [3, 1], scope='Conv2d 0c 3xl1")]) 


# Inception 模块 中 第 三 条 路 径 。 此 计算 路 径 也 是 一 个 Inception 结构 。 
with tf.variable scopel(l'Branch 2 ") : 
branch 2 = SLim.Cconv2d 人 
net, 448, [1, 1], scope='Conv2d 0a 1xl1'") 
branch 2 = slim.conv2d!( 
branch 2, 384, [3, 3], scope='Conv2d_ 0b 3x3') 
branch 2 = tf.concat (3, [ 
slim.conv2d (branch 2, 384, 
[1, 3], scope='Conv2d 0c lx3'), 
slim.conv2d (branch 2, 384, 
[3, 1], scope='Conv2d 0d 3x1')]) 
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# Inception 模块 中 第 四 条 路 径 。 
with tf.variable SCope( Branch 3'): 
branch 3 = slim.avg pool2d! 
net, [3, 3], scope="'AvgPool] 0a 3x3') 
branch 3 = slim.conv2d!( 
branch 3, 192, [1, 1], scope="Conv2d (0b 1x1’) 


# 当前 Inception 模块 的 最 后 输出 是 由 上 面 四 个 计算 结果 拼接 得 到 的 。 


net = tf.concat(3, [branch 0, branch 1, branch 2 bzanch 3]) 


6.5 ” 卷 积 神经 网 络 迁 移 学 习 


在 本 节 中 将 介绍 迁移 学 习 的 概念 以 及 如 何 通 过 TensorFlow 来 实现 迁移 学 习 。 在 6.5.1 
小 节 中 将 讲解 迁移 学 习 的 动机 ， 并 介绍 如 何 将 一 个 数据 集 上 训练 好 的 卷 积 神经 网 络 模型 快 
速 转 移 到 另外 一 个 数据 集 上 。 在 6.5.2 小 节 中 将 给 出 一 个 具体 的 TensorFlow 程序 将 ImageNet 
土 训练 好 的 Inception-v3 模型 转移 到 另外 一 个 图 像 分 类 数据 集 上 。 


6.5.1 迁移 学 习 介 绍 


在 6.4 节 中 介绍 了 1998 年 提出 的 LeNet-5 模型 和 2015 年 提出 的 Inception-v3 模型 。 对 
比 这 两 个 模型 可 以 发 现 ， 卷 积 神经 网 络 模型 的 层 数 和 复杂 度 都 发 生 了 巨大 的 变化 。 表 6-2 
给 出 了 从 2012 年 到 2015 年 ILSVRC (Large Scale Visual Recognition Challenge) 第 一 名 模 
型 的 层 数 以 及 前 五 个 答案 的 错误 率 。 


表 6-2 ILSVRC 第 一 名 模型 信息 列表 





从 表 6-2 可 以 看 到 ， 随 痢 模 型 层 数 及 复杂 上 度 的 增加 ， 模 型 在 ImageNet 上 的 错误 率 也 随 
之 降低 。 然 而 ， 训 练 复 杂 的 将 积 神 经 网 络 需 要 非常 多 的 标注 数据 。 如 6.1 节 中 提 到 的 ， 


QW 在 这 里 层 数 只 计算 了 卷 积 层 和 全 连接 层 的 个 数 ， 没 有 参数 的 池 化 层 没 有 包括 在 内 。 
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ImageNet 图 像 分 类 数据 集中 有 120 万 标注 图 片 , 所 以 才能 将 152 层 的 ResNet 的 模型 训练 到 
大 约 96.5% 的 正确 率 。 在 真实 的 应 用 中 ， 很 难 收集 到 如 此 多 的 标注 数据 。 即 使 可 以 收集 到 ， 
也 需要 花费 大 量 人 力 物 力 。 而 且 即 使 有 海量 的 训练 数据 ， 要 训练 一 个 复杂 的 卷 积 神经 网 络 
也 需要 几 天 甚至 几 周 的 时 间 。 为 了 解决 标注 数据 和 训练 时 间 的 问题 ， 可 以 使 用 本 节 将 要 介 
绍 的 迁移 学 习 。 

所 谓 迁 移 学 习 ， 就 是 将 一 个 问题 上 训练 好 的 模型 通过 简单 的 调整 使 其 适用 于 一 个 新 的 
问题 。 本 小 节 将 介绍 如 何 利用 ImageNet 数据 集 上 训练 好 的 Inception-v3 模型 来 解决 一 个 新 
的 图 像 分 类 问题 。 根 据 论文 DeC4F: 4 Deep Convolutional Activation Feature for Generic 
Visual Recognition" 中 的 结论 ， 可 以 保留 训练 好 的 Inception-v3 模型 中 所 有 卷 积 层 的 参数 ， 
只 是 替换 最 后 一 层 全 连接 层 。 在 最 后 这 一 层 全 连接 层 之 前 的 网 络 层 称 之 为 瓶 嗓 层 
(bottleneck )。 

将 新 的 图 像 通过 训练 好 的 卷 积 神经 网 络 直到 瓶颈 层 的 过 程 可 以 看 成 是 对 图 像 进行 特征 
提取 的 过 程 。 在 训练 好 的 Inception-v3 模型 中 ,因为 将 瓶颈 层 的 输出 再 通过 一 个 单 层 的 全 连 
接 层 神经 网 络 可 以 很 好 地 区 分 1000 种 类 别 的 图 像 , 所 以 有 理由 认为 瓶颈 层 输 出 的 节点 向 量 
可 以 被 作为 任何 图 像 的 一 个 更 加 精简 且 表 达能 力 更 强 的 特征 向 量 。 于 是 ， 在 新 数据 集 上 ， 
可 以 直接 利用 这 个 训练 好 的 神经 网 络 对 图 像 进行 特征 提取 ， 然 后 再 将 提取 得 到 的 特征 问 量 
作为 输入 来 训练 一 个 新 的 单 层 全 连接 神经 网 络 处 理 新 的 分 类 问题 。 

一 般 来 说 ， 在 数据 量 足 够 的 情况 下 ,迁移 学 习 的 效果 不 如 完全 重新 训练 。 但 是 迁移 学 
习 所 需要 的 训练 时 间 和 训练 样本 数 要 远 远 小 于 训练 完整 的 模型 。 在 没有 GPU 的 普通 台式 
机 或 者 笔记 本 电脑 上 ，6.5.2 小 节 中 给 出 的 TensorFlow 训练 过 程 只 需要 大 约 5 分 钟 ”， 而 且 
可 以 达到 大 概 90% 的 正确 率 。 


6.5.2 ”TensorFlow 实现 迁移 学 习 


本 小 节 将 给 出 一 个 完整 的 TensorFlow 程序 来 介绍 如 何 通过 TensorFlow 实现 迁移 学 习 。 
以 下 和 代码 给 出 了 如 何 下 载 这 一 小 节 中 将 要 用 到 的 数据 集 。 


curl http:;//download.tensorflow.org/example images/flower photos.tgz 
tar xzf flower photos.tgz 


QD Donahue J], Jia Y, Vinyals ©O, et al. DeCAF: 4A Deep Convolutional Activation Feature for Generic Visual 
Recognition [J]. Computer Science., 2013. 

加 第 10 章 将 介绍 TensorFlow 如 何 使 用 GPU 加 速 训 红 过 程 。 

外 数据 下 载 和 数据 预 处 理 的 时 间 没 有 计算 在 内 。 
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解压 之 后 的 文件 夹 包含 了 5 个 子 文件 夹 ， 每 一 个 子 文件 夹 的 名 称 为 一 种 花 的 名 称 ， 代 
表 了 不 同 的 类 别 。 平 均 每 一 种 花 有 734 张 图 片 , 每 一 张 图 片 都 是 RGB 色彩 模式 的 ， 大 小 也 
不 相同 。 和 之 前 的 样 例 不 同 , 在 这 一 小 节 中 给 出 的 程序 将 直接 处 理 没有 整理 过 的 图 像 数 据 。 
同时 ， 通 过 下 面 的 命名 可 以 下 载 谷歌 提供 的 训练 好 的 Inception-v3 模型 。 

wget https://storage.googleapis.com/download.tensorflow.org/models/\ 


inception dec 2015.2zip 
unzip tensorflow/examples/label image/data/inception dec 2015.zip 


当 新 的 数据 集 和 已 经 训练 好 的 模型 都 准备 好 之 后 ， 可 以 通过 以 下 代码 来 完成 迁移 学 习 
的 过 程 。 
# -*- Coding: utf-8 -*-— 


import glob 

import os.path 

import random 

import numpy as np 

import tensorflow as tf 

from tensorflow.python.platform import gfile 


# Inception-v3 模型 瓶颈 层 的 节点 个 数 。 
BOTTLENECK TENSOR SIZE = 2048 


# Inception-v3 模型 中 代表 瓶颈 层 结果 的 张 量 名 称 。 在 谷歌 提供 的 Inception-v3 模型 中 ， 这 
# 个 张 量 名 称 就 是 'pool] 3/ reshape:0'。 在 训练 的 模型 时 ， 可 以 通过 tensor .name 来 获取 张 
# 量 的 名 称 。 

BOTTLENECK TENSOR NAME = 'pool 3/ _ reshape:0' 


# 图 像 输入 张 量 所 对 应 的 名 称 。 
JPEG DATA TENSOR NAME = 'DecodeJpeg/contents:0'" 


# 下 载 的 谷歌 训练 好 的 Inception-v3 模型 文件 目录 。 
MODEL DIR = '/path/to/model!' ， 


# 下 载 的 谷歌 训练 好 的 Inception-v3 模型 文件 名 。 
MODEL FILE = "Classify image graph def.pb" 


# 因为 一 个 训练 数据 会 被 使 用 多 次 ， 所 以 可 以 将 原始 图 像 通过 Inception-v3 模型 计算 得 到 
# 的 特征 向 量 保存 在 文件 中 ， 免 去 重复 的 计算 。 下 面 的 变量 定义 了 这 些 文件 的 存放 地 址 。 
CACHE DIR = '/tmp/bottleneck' 


# 图 片 数据 文件 夹 。 在 这 个 文件 夹 中 每 一 个 子 文件 夹 代表 一 个 需要 区 分 的 类 别 ， 每 个 子 文件 夹 中 
# 存放 了 对 应 类 别 的 图 片 。 
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INPUT DATA = '/path/to/flower data' 


# 验证 的 数据 百分比 。 
VALIDATION PERCENTAGE = 10 
# 讽 试 的 数据 百分比 。 

TEST_ PERCENTAGE = 10 


# 定义 神经 网 络 的 设置 。 
LEARNING RATE = 0.01 
STEPS = 4000 

BATCH = 100 


# 这 个 函数 从 数据 文件 夹 中 读 取 所 有 的 图 片 列表 并 按 训 练 、 验 证 、 测 试 数 据 分 开 。 
# testing percentage 和 validation percentage 参数 指定 了 测试 数据 集 和 验证 数据 集 的 
# 大 小 。 
def create image listsl(testing percentage, validation percentage): 
# 得 到 的 所 有 图 片 都 存在 result 这 个 字典 (dictionary) 里 。 这 个 字典 的 key 为 类 别 的 名 
# 称 ，value 是 也 是 一 个 字典 ， 字 典 里 存储 了 所 有 的 图 片 名 称 。 
result = 1{} 
# 获取 当前 目录 下 所 有 的 子 目录 。 
sub dirs = [x[0] for x in os.walk(INPUT DATA)] 
# 得 到 的 第 一 个 目录 是 当前 目录 ， 不 需要 考虑 。 
ls root dir = True 
for sub dir in sub dirs: 
if"1is root dir: 
is'root' dir = False 
continue 


# 获取 当前 目录 下 所 有 的 有 效 图 片 文件 。 

extensions = ['jpg', ‘jpeg', ‘JPG', 'JPEG'] 

file list = [] 

dir name = os.path.basename (sub dir) 

for extension in extensions: 
file glob = os.path.join(INPUT DATA, dir name, '*.' +extension) 
file list.extend(glob.glob (file glob)) 

if not file list: continue 


# 通过 目录 名 获取 类 别 的 名 称 。 
label name = dir name.lower() 
# 初始 化 当前 类 别 的 训练 数据 集 、 测 试 数据 集 和 验证 数据 集 。 
training images = [] 
testing images = [] 
validation images = [] 
for file name in file list: 
base name = os.path.basename (file nanme) 


# 随机 将 数据 分 到 训练 数据 集 、 测 试 数据 集 和 验证 数据 集 。 
162 


ww ai bbt.com DODODODODODOD 





本 厘 : 非 非 厘 音 


第 6 章 图 像 识 别 与 卷 积 神经 网 络 


chance = np.random.randint (100) 

if chance < validation percentage: 
validation images .append (base name) 

elif chance < (testing percentage + validation percentage): 
testing images.append (base name) 

else: 
training images.append (base name) 


# 将 当前 类 别 的 数据 放 入 结果 字典 。 
result[label name] = { 
'dir': dir name, 
'training': training images, 
'testing': testing images, 
'validation': validation images, 


} 
# 返回 整理 好 的 所 有 数据 。 


return result 


这 个 函数 通过 类 别名 称 、 所 属 数据 集 和 图 片 编号 获取 一 张 图 片 的 地 址 。 

image_ lists 参数 给 出 了 所 有 图 片 信 息 。 

image_dir 参数 给 出 了 根 目 录 。 存 放 图 片 数 据 的 根 目录 和 存放 图 片 特 征 向 量 的 根 目 录 地 址 不 同 。 
labe] name 参数 给 定 了 类 别 的 名 称 。 

index 参数 给 定 了 需要 获取 的 图 片 的 编号 。 

category 参数 指定 了 需要 获取 的 图 片 是 在 训练 数据 集 、 测 试 数据 集 还 是 验证 数据 集 。 


def get image pathl(image lists, image dir, label name, indqex category): 


# 获取 给 定 类 别 中 所 有 图 片 的 信息 。 

label lists = image lists[label name] 

# 根据 所 属 数据 集 的 名 称 获取 集合 中 的 全 部 图 片 信息 。 

category list = label lists[category)] 

mod index = index % lenl(category list) 

# 获取 图 片 的 文件 名 。 

base name = category list[mod index] 

sub, dir = label listsl"dir'] 

# 最 终 的 地 址 为 数据 根 目录 的 地 址 加 上 类 别 的 文件 夹 加 上 图 片 的 名 称 。 
full path = os.path.join(image dir，, sub dir, base name) 
return full Path 


# 这 个 函数 通过 类 别名 称 、 所 属 数据 集 和 图 片 编号 获取 经 过 Inception-v3 模型 处 理 之 后 的 特征 向 量 
# 文件 地 址 。 


def get bottleneck path (image lists, label name, index, category): 


return get image _ Path(image lists, CACHE DIR, 
label name index, category) + '.txt' 


# 这 个 函数 使 用 加 载 的 训练 好 的 Inception-v3 模型 处 理 一 张 图 片 ， 得 到 这 个 图 片 的 特征 向 量 。 


def run bottleneck on image(sess, image data, image data tensor, 


bottleneck tensor): 
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# 这 个 过 程 实际 上 就 是 将 当前 图 片 作为 输入 计算 瓶颈 张 量 的 值 。 这 个 瓶颈 张 量 的 值 就 是 这 

# 张 图 片 的 新 的 特征 癌 量 。 

bottleneck values = sess.runl(lbottleneck tensor, 
{image data tensor: image data}) 

# 经 过 卷 积 神经 网 络 处 理 的 结果 是 一 个 四 维 数组 ， 需 要 将 这 个 结果 压缩 成 一 个 特征 

# 向 量 (一 维 数组 )。 

bottleneck values = np.squeeze (bottleneck values) 

return bottleneck values 


# 这 个 函数 获取 一 张 图 片 经 过 Inception-v3 模型 处 理 之 后 的 特征 向 量 。 这 个 函数 会 先 试图 寻找 
# 已 经 计算 且 保存 下 来 的 特征 向 量 ， 如 果 找 不 到 则 先 计 算 这 个 特征 向 量 ， 然 后 保存 到 文件 。 
def get or create bott1leneck 人 
sess, image lists, label name, index, 
category, JjJpeg data tensor, bottleneck tensor): 
# 获取 一 张 图 片 对 应 的 特征 向 量 文件 的 路 径 。 
label lists = image lists[label name] 
SUb dir = label lists["dir"] 
sub dir path = os.path.join(CACHE DIR, sub dir) 
if not os.path.exists (sub dir path): os.makedirs(sub dir path) 
bottleneck path = get bottleneck Path ( 
image lists, label name, index, category) 


# 如 果 这 个 特征 向 量 文件 不 存在 , 则 通过 Inception-v3 模型 来 计算 特征 向 量 , 并 将 计算 的 结果 
# 存 入 文件 。 
if not os.path.exists (bottleneck path): 

# 获取 原始 的 图 片 路 径 。 

image path = get image pathl\ 

image lists, INPUT DATA, label name, index, category) 

# 获取 图 片 内 容 。 

image data = gfile.FastGFile(image path, ‘'rb').read() 

# 通过 Inception-v3 模型 计算 特征 向 量 。 

bottleneck values = run bottleneck on image (人 

sess, image data, jpeg data tensor, bottleneck tensor) 

# 将 计算 得 到 的 特征 癌 量 存 入 文件 。 

bottleneck string = ','.joinl(str (x) for x in bottleneck values) 

with open (bottleneck path, 'w') as bottleneck file: 

bottleneck file.write (bottleneck string) 

else: 

# 直接 从 文件 中 获取 图 片 相应 的 特征 向 量 。 

with opPen (bott1leneck path, 'r') as bottleneck file: 

bottleneck string = bottleneck file.read() 

bottleneck values = [float (x) for x in bottleneck string.split(',')] 

# 返回 得 到 的 特征 向 量 。 


return bottleneck values 


# 这 个 函数 随机 获取 一 个 batch 的 图 片 作为 训练 数据 。 
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def get random cached bottlenecks ( 
sess, n classes, image lists, how many, category, 
jpeg data tensor, bottleneck tensor): 
bottlenecks = [] 
ground truths = [] 
for in range (how_ many): 
# 随机 一 个 类 别 和 图 片 的 编号 加 入 当前 的 训练 数据 。 
label index = random.randrange (n classes) 
label name = list (image lists.keys()) [label index] 
image index = random.randrange (65536) 
bottleneck = get or create bottleneck\( 
sess, image lists, label name, image index, category, 
jPpeg data tensor, bottleneck tensor) 
ground truth = np.zeros(n classes, dtype=np.float32) 
ground truth[label index] = 1.0 
bottlenecks .append (bottleneck) 
ground truths.append (ground truth) 


return bottlenecks, ground truths 


# 这 个 函数 获取 全 部 的 测试 数据 。 在 最 终 测试 的 时 候 需 要 在 所 有 的 测试 数据 上 计算 正确 率 。 
def get test bottlenecks(sess, image lists, n classes, 
jpeg data tensor, bottleneck tensor): 
bottlenecks = [] 
ground truths = [] 
label name list = list(image lists.keys()) 
# 枚 人 举 所 有 的 类 别 和 每 个 类 别 中 的 测试 图 片 。 
for label index, label name in enumerate(label name list): 
category = 'testing' 
for index, unused base name in enumerate | 
image lists[label name] [category]): 
# 通过 Inception-v3 模型 计算 图 片 对 应 的 特征 向 量 ,并 将 其 加 入 最 终 数 据 的 列表 。 
bottleneck = get or create bott1Leneck ( 
sess, image lists, label name, index, category, 
jpeg data tensor, bottleneck tensor) 
ground truth = np.zeros(n classes, dtype=np.float32) 
ground truth[label index] = 1.0 
bottlenecks .append (bottleneck) 
ground truths.append (ground truth) 
return bottlenecks, ground truths 


debemariv( 
# 读 取 所 有 图 片 。 


image lists= create image lists (TEST PERCENTAGE, VALIDATION PERCENTAGE) 
n classes = lenl(image lists.keys ()) 
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# 读 取 已 经 训练 好 的 Inception-v3 模型 ,谷歌 训练 好 的 模型 保存 在 了 GraphDef Protocol 
# Buffer 中 ， 里 面 保存 了 每 一 个 节点 取 值 的 计算 方法 以 及 变脸 的 取 值 。TensorFlow 模型 持 
# 久 化 的 问题 在 第 5 章 中 有 详细 的 介绍 。 
with gfile.FastGrFile(os.path.join (MODEL DIR, MODEL FILE), ‘rb') as f: 
Graph def = tf.GraphDef () 
graph def.ParseFromString(f.read()) 
# 加 载 读 取 的 Inception-v3 模型 , 并 返回 数据 输入 所 对 应 的 张 量 以 及 计算 瓶颈 层 结果 所 对 应 
# 的 张 量 。 
bottleneck tensor, jpeg data tensor = tf.import graph det ( 
graph def, 
return elements=[BOTTLENECK TENSOR NAME, JPEG DATA TENSOR NAME]) 


# 定义 新 的 神经 网 络 输入 , 这 个 输入 就 是 新 的 图 片 经 过 Inception-v3 模型 前 向 传播 到 达 瓶 颈 层 
# 是 的 节点 取 值 。 可 以 将 这 个 过 程 类 似 的 理解 为 一 种 特征 提取 。 
bottljeneck input = tf.placeholder( 

tf.float32, [None, BOTTLENECK TENSOR SIZE], 

name='BottleneckInputPlaceholder') 
# 定义 新 的 标准 答案 输入 。 
ground truth input = tf.placeholder( 

tf.float32, [None, n classes], name=’'GroundTruthIinput') 
# 定义 一 层 全 链接 层 来 解决 新 的 图 片 分 类 问题 。 因为 训练 好 的 Inception-v3 模型 已 经 将 原始 
# 的 图 片 抽象 为 了 更 加 容易 分 类 的 特征 向 量 了 ， 所 以 不 需要 再 训练 那么 复杂 的 神经 网 络 来 完成 
# 这 个 新 的 分 类 任务 。 
with tf.name scopel(l'final training ops'): 

weights = tf.Variable (tf.truncated normall( 

[BOTTLENECK TENSOR SIZE, n classes], stddev=0.001)) 

biases = tf.Variable(tf.zeros([n classes])) 

logits = tf.matmul (bottleneck input, weights) + biases 

final tensor = tf.nn.softmax (logits) 


# 定义 交叉 入 损 失 函 数 。 
cross entropy = tf.nn.softmax cross entropy with logits( 
logits,ground truth input) 
cross entropy mean = tf.reduce meanl(cross entropy) 
train step = tf.train.GradientDescentOptimizer (LEARNING RATE)N\ 
.minimize (cross entropy mean) 


# 计算 正确 率 。 
with tf.name scope('evaluation'): 
correct prediction = tf.equal (tf.argmax (final tensor, 1), 
tf.argmax(ground truth input 1)) 
evaluation step = tf.reduce mean ( 
tf.cast (correct prediction,tf.float32)) 


with tf.Session() as sess: 
init = tf.initialize all variables () 
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sess.run(init) 


# 训练 过 程 。 
for i in range (STEPS): 
# 每 次 获取 一 个 batch 的 训练 数据 。 
train bottlenecks, train ground truth = \ 
get random cached bottlenecks ( 
sess, n classes, image lists, BATCH, 
'training', jpeg data tensor, bottleneck tensor) 
sess.run(train step, 
feed dict={bottleneck input: train bottlenecks, 
ground truth input: train ground truth}) 


# 在 验证 数据 上 测试 正确 率 。 
if 1 名 100 == 0 or i + 1 == STEPS: 
validation bottlenecks, validation ground truth = \ 
get random cached bottlenecks! 
sess, n classes, image lists, BATCH, 
'validation', jpeg data tensor, bottleneck tensor) 
validation accuracy = sess.runl( 
evaluation step, feed dict=1{ 
bottleneck input: validation bottlenecks, 
ground truth input: validation ground truth}) 
print('Step %d: Validation accuracy on random sampled ' 
'%$d examples = .1f%S' % 
(i, BATCH, validation accuracy * 100)) 


# 在 最 后 的 测试 数据 上 测试 正确 率 。 

test bottlenecks, test ground truth = get test bottlenecks! 
sess, image lists, n classes, jpeg data tensor, 
bottleneck tensor) 

test accuracy = sess.runlevaluation step, feed dict={ 
bottleneck input: test bottlenecks, 
ground truth input: test ground truth}) 

print('Final test accuracy = %.1f%%' $% (test. accuracy * 100)) 


运行 上 面 的 程序 将 需要 大 约 40 分 钟 (数据 处 理 35 分 钟 ， 训 练 5 分钟)， 可 以 得 到 类 似 
下 面 的 结果 : 


Step 0: Validation accuracy on random sampled 100 examples = 44.0% 


Step 200: Validation accuracy on random sampled 100 examples = 79.0% 
Step 400: Validation accuracy on random sampled 100 examples = 85.0% 
Step 600: Validation accuracy on random sampled 100 examples = 92.0% 
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Step 800: Validation accuracy on random sampled 100 examples = 87.0% 
Step 1000: Validation accuracy on random sampled 100 examples = 93.0% 


Step 39993 Validation accuracy on random sampled 100 sxamples = 94.0% 
Final test accuracy = 93.6S 


从 上 面 的 结果 可 以 看 到 , 模型 在 新 的 数据 集 上 很 快 能 够 收敛 , 并 达到 还 不 错 的 分 类 效果 。 
小 结 


在 本 章 中 详细 介绍 了 如 何 通过 卷 积 神经 网 络 解决 图 像 识别 问题 。 首 先 ,在 6.1 节 中 讲 
解 了 什么 是 图 像 误 别 问题 ， 并 介绍 了 图 像 识别 问题 中 的 一 些 经 典 公 开 数 据 集 。 在 这 一 节 中 
介绍 了 不 同 算法 在 这 些 公开 数据 集 上 的 表现 ， 并 指出 卷 积 神经 网 络 给 这 个 领域 带 来 了 质 的 
飞越 。 接 着 ， 在 6.2 节 中 介绍 了 卷 积 神经 网 络 的 基本 思想 。 在 这 一 节 中 指出 了 全 连接 神经 
网 络 在 处 理 图 像 数据 上 的 不 足 之 处 , 并 给 出 了 经 典 的 卷 积 神经 网 络 中 包含 的 不 同 网 络 结构 。 

在 6.3 节 中 详细 讲述 了 卷 积 神经 网 络 中 比较 重要 的 两 个 网 络 结构 一 一 卷 积 层 和 池 化 层 。 
本 节 详 细 介 绍 了 这 两 种 网 络 结构 的 前 向 传播 算法 ， 并 给 出 了 TensorFlow 中 的 代码 实现 。 在 
6.4 节 中 , 通过 两 种 经 典 的 卷 积 神经 网 络 模型 介绍 了 如 何 设 计 一 个 卷 积 神经 网 络 的 架构 ,并 
介绍 了 配置 卷 积 层 和 池 化 层 中 设置 的 一 些 经 验 。 在 这 一 节 中 给 出 了 一 个 完成 的 TensorFlow 
程序 来 实现 LeNet-5 模型 , 通过 这 个 模型 可 以 将 MNIST 数据 集 上 的 正确 率 进一步 提升 到 大 
约 99.4%。 这 一 节 中 还 简单 介绍 了 TensorFlow-Slim 工具 ， 通 过 这 个 工具 可 以 巨 幅 提高 实现 
复杂 神经 网 络 的 编程 效率 。 最 后 在 6.5 节 中 ， 介 绍 了 迁移 学 习 的 概念 并 给 出 了 一 个 完整 的 
TensorFlow 来 实现 迁移 学 习 。 通 过 迁移 学 习 ， 可 以 使 用 少量 训练 数据 在 短 时 间 内 训练 出 效 
果 还 不 错 的 神经 网 络 模型 

在 这 一 章 中 , 通过 图 像 识 别 问题 介绍 了 卷 积 神经 网 络 。 通过 这 种 特殊 结构 的 神经 网 络 ， 
可 以 将 图 像 识 别 问题 的 准确 率 提高 到 一 个 新 的 层次 。 除 了 改进 模型 ，TensorFlow 还 提供 了 
很 多 图 像 处 理 的 函数 以 方便 图 像 处 理 。 在 第 7 章 中 将 具体 介绍 这 些 函 数 。 同 时 也 将 介绍 如 
何 使 用 TensorFlow 更 好 地 处 理 输入 数据 。 
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在 第 6 章 中 详细 介绍 了 卷 积 神经 网 络 ， 并 提 和 到 通过 卷 积 神经 网 络 给 图 像 识 别 技术 带 来 
了 突破 性 进展 。 这 一 章 将 从 另外 一 个 维度 来 进一步 提升 图 像 识 别 的 精度 以 及 训练 的 速度 。 
喜欢 摄影 的 读者 都 知道 图 像 的 亮度 、 对 比 度 等 属性 对 图 像 的 影响 是 非常 大 的 ， 相 同 物体 在 
不 同 亮度 、 对 比 度 下 差别 非常 大 。 然 而 在 很 多 图 像 识 别 问题 中 ， 这 些 因 素 都 不 应 该 影响 最 
后 的 识别 结果 。 所 以 本 章 将 介绍 如 何 对 图 像 数 据 进行 预 处 理 使 训练 得 到 的 神经 网 络 模型 尽 
可 能 小 地 被 无 关 因素 所 影响 。 但 与 此 同时 ， 复 杂 的 预 处理 过 程 可 能 导致 训练 效率 的 下 降 。 
为 了 减 小 预 处 理 对 于 训练 速度 的 影响 ,在 本 章 中 也 将 详细 地 介绍 TensorFlow 中 多 线程 处 理 
输入 数据 的 解决 方案 。 

本 章 将 根据 数据 预 处 理 的 先后 顺序 来 组 织 不 同 的 小 节 。 首 先 在 7.1 节 中 将 介绍 如 何 统 
一 竹 入 数据 的 格式 ， 使 得 在 之 后 系统 中 可 以 更 加 方便 地 处 理 。 来 自 实际 问题 的 数据 往往 有 
很 多 格式 和 属性 , 这 一 节 将 介绍 的 TFRecord 格式 可 以 统一 不 同 的 原始 数据 格式 ， 并 更 加 有 
效 地 管理 不 同 的 属性 。 接 着 在 7.2 节 中 将 介绍 如 何 对 图 像 数 据 进行 预 处 理 。 这 一 节 将 列举 
TensorFlow 文 持 的 图 像 处 理 函 数 ， 并 介绍 如 何 使 用 这 些 处 理 方式 来 弱化 与 图 像 识 别 无 关 的 
因素 。 复 杂 的 图 像 处 理 函 数 有 可 能 降低 训练 的 速度 为 了 加 速 数据 预 处 理 过 程 ，7.3 节 将 完 
整地 介绍 TensorFlow 多 线程 数据 预 处 理 流程 。 在 这 一 节 中 将 首先 介绍 TensorFLow 中 多 线 
程 和 队列 的 概念 ， 这 是 TensorFlow 多 线程 数据 预 处 理 的 基本 组 成 部 分 。 然 后 将 具体 介绍 数 
据 预 处 理 流程 中 的 每 个 部 分 。 在 本 节 的 最 后 将 给 出 一 个 完整 的 多 线程 数据 预 处 理 流程 图 和 
程序 框架 。 


7.1 TFRecord 输入 数据 格式 
TensorFlow 提供 了 一 种 统一 的 格式 来 存储 数据 ， 这 个 格式 就 是 TFRecord。6.5 节 给 出 
了 一 个 程序 来 处 理 花 灯 分 类 的 数据 。 在 这 个 程序 中 ， 使 用 了 一 个 从 类 别名 称 到 所 有 数据 列 
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表 的 词典 来 维护 图 像 和 类 别 的 关系 。 这 种 方式 的 可 扩展 性 非常 差 ， 当 数据 来 源 更 加 复杂 、 
每 一 个 样 例 中 的 信息 更 加 丰富 之 后 ， 这 种 方式 就 很 难 有 效 地 记录 输入 数据 中 的 信息 了 。 于 
是 TensorFlow 提供 了 TFRecord 的 格式 来 统一 存储 数据 。 这 一 节 将 介绍 如 何 使 用 TFRecord 
来 统一 输入 数据 的 格式 。 


7.1.1 TFRecord 格式 介绍 


TFRecord 文件 中 的 数据 都 是 通过 tftrain.Example Protocol Buffer 的 格式 存储 的 。 以 下 
代码 给 出 了 tftrain.Example 的 定义 。 


message Example 1 
Features features = 1，; 


上 


message Features 1 
map<string, Feature> feature = 1; 


}? 


message Feature 1{ 
oneof kingd { 


BytesList bytes list = 1; 
FloatList float list = 2; 
Int64List int64 list = 3; 


} 
}; 
从 以 上 代码 可 以 看 出 万 train.Example 的 数据 结构 是 比较 简洁 的 。tf.train.Example 中 包 
含 了 一 个 从 属性 名 称 到 取 值 的 字典 。 其 中 属性 名 称 为 一 个 字符 串 ， 属 性 的 取 值 可 以 为 字符 
囊 (BytesList)， 实 数列 表 (FloatList) 或 者 整数 列表 (Int64List)。 比 如 将 一 张 解码 前 的 图 
像 存 为 一 个 字符 串 ， 图 像 所 对 应 的 类 别 编号 存 为 整数 列表 。 在 7.1.2 小 节 中 将 给 出 一 个 使 用 
TFRecord 的 具体 样 例 。 


7.1.2 ”TIFRecord 样 例 程 序 


本 小 节 将 给 出 具体 的 样 例 程序 来 读 写 TFRecord 文 件 。 下 面 的 程序 给 出 了 如 何 将 MNIST 
输入 数据 转化 为 TFRecord 的 格式 。 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 
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import numpy as np 


# 生成 整数 型 的 属性 。 
def int64 feature (Valuel) : 
return tf.train.Feature(int64 1List=tft.train.Int64List(value=[value]) ) 


# 生成 字符 串 型 的 属性 。 
def bytes feature (value): 
return tf.train.Feature(lbytes list=tf.train.BytesList (value=[value])) 


mnist = input data.read data sets( 
"/path/to/mnist/data", dtype=tf.uint8, one hot=True) 

images = mnist.train.images 

# 训练 数据 所 对 应 的 正确 答案 ， 可 以 作为 一 个 属性 保存 在 TFRecord 中 。 

labels = mnist.train.labels 

# 训练 数据 的 图 像 分 辩 率 ， 这 可 以 作为 Example 中 的 一 个 属性 。 

pixels = images.shapel[1] 

num examples = mnist.train.num examples 


# 输出 TFRecord 文件 的 地 址 。 
filename = "/path/to/output.tfrecords" 
# 创建 一 个 writer 来 写 TFRecord 文件 。 
writer = tf.python io.TFRecordWriter (filename) 
for index in range (num examples): 
# 将 图 像 矩阵 转化 成 一 个 字符 串 。 
image raw = images [index] .tostring () 
# 将 一 个 样 例 转化 为 Example Protocol Buffer， 并 将 所 有 的 信息 写 入 这 个 数据 结构 。 
example = tf.train.Example (features=tf.train.Features (feature={ 
'pixels': int64 feature (pixels), 
'label': int64 feature (np.argmax (labels[index])), 
'image raw': bytes feature (image raw)})) 


# 将 一 个 Example 写 入 TFRecord 文件 。 
writer.write (example.SerializeToString()) 
writer.close() 


以 上 程序 可 以 将 MNIST 数据 集中 所 有 的 训练 数据 存储 到 一 个 TFRecord 文件 中 。 当 数 
据 量 较 大 时 , 也 可 以 将 数据 写 入 多 个 TFRecord 文件 。TensorFlow 对 从 文件 列表 中 读 取 数据 
提供 了 很 好 的 支持 ， 在 7.3.2 小 节 中 将 详细 介绍 。 以 下 程序 给 出 了 如 何 读 取 TFRecord 文件 
中 的 数据 。 
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import tensorflow as tf 


# 创建 一 个 reader 来 读 取 TFRecorad 文件 中 的 样 例 。 

reader = tf.TFRecordReader () 

# 创建 一 个 队列 来 维护 输入 文件 列表 ， 在 7.3.2 小 节 中 将 更 加 详细 的 介绍 

于 tf.train.string input producer 函数 。 

filename queue = tf.train.string input Producer 人 
["/path/to/output.tfrecords"]) 


# 从 文件 中 读 出 一 个 样 例 。 也 可 以 使 用 read up to 函数 一 次 性 读 取 多 个 样 例 。 
_/ Serialized example = reader.read(filename queue) 
# 解析 读 入 的 一 个 样 例 。 如 果 和 需要 解析 多 个 样 例 ， 可 以 用 parse example 函数 。 
features = tf.parse single example( 
serialized example., 
features={ 
# TensorFlow 提供 两 种 不 同 的 属性 解析 方法 ,一 种 是 方法 是 tf.FixedLenFeature， 
# 这 种 方法 解析 的 结果 为 一 个 Tensor。 另 一 种 方法 是 tf .VarLenFeature, 这 种 方法 
# 得 到 的 解析 结果 为 SparseTensor， 用 于 处 理 稀 疏 数据 。 这 里 解析 数据 的 格式 需要 和 
# 上 面 程序 写 入 数据 的 格式 一 致 。 
'image raw': tf.FixedLenFeature([], tf.string), 
'pixels': tf.FixedLenFeature([], tf.int64), 
!'Jabel': tf.FixedLenFeature([], tf.int64), 
}) 


#tf.decode_raw 可 以 将 字符 串 解析 成 图 像 对 应 的 像素 数组 。 
images = tf.decode raw(features['image raw'], tf.uint8) 
labels = tf.cast (features['label'], tf.int32) 
pixels = tf.cast (features['pixels'], tf.int32) 


sess = tf.Session() 


# 启动 多 线程 处 理 输入 数据 ，7 . 3 节 将 更 加 详细 地 介绍 TensorFlow 多 线程 处 理 。 
coord = tf.train.Coordinator () 
threads = tf.train.start queue runners(sess=sess, coord=coord) 


# 每 次 运行 可 以 读 取 TFRecord 文件 中 的 一 个 样 例 。 当 所 有 样 例 都 读 完 之 后 ， 在 此 样 例 中 程序 
# 会 在 重头 读 取 。 
for i In range(10): 

image, label, pixel = sess.run([images, labels, pixels]) 


7.2 ”图像 数据 处 理 


在 之 前 的 几 章 中 多 次 使 用 到 了 图 像 识别 数据 集 。 然 而 在 之 前 的 章节 中 都 是 直接 使 用 图 
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像 原始 的 像素 矩阵 。 这 一 节 将 介绍 图 像 的 预 处 理 过 程 。 通 过 对 图 像 的 预 处 理 ， 可 以 尽量 避 
免 模型 受到 无 关 因素 的 影响 。 在 大 部 分 图 像 识 别 问题 中 ， 通 过 图 像 预 处 理 过 程 可 以 提高 模 
型 的 准确 率 。 在 7.2.1 小 节 中 将 先 介 绍 TensorFlow 提供 的 主要 图 像 处 理 函 数 ， 并 给 出 具体 
图 像 在 处 理 前 和 处 理 后 的 变化 让 读者 有 一 个 直观 的 了 解 。 然 后 在 7.2.2 小 节 中 将 给 出 一 个 完 
整 的 图 像 预 处 理 流程 。 


7.2.1 TensorFlow 图 像 处 理 困 数 


TensorFlow 提供 了 几 类 图 像 处理 函 数 ， 在 本 小 节 中 将 一 一 介绍 这 些 图 像 处理 函 数 。 
图 像 编 码 处 理 


在 之 前 的 章节 中 提 到 一 张 RGB 色彩 模式 的 图 像 可 以 看 成 一 个 三 维 矩 阵 , 矩阵 中 的 每 一 
个 数 表示 了 图 像 上 不 同位 置 ， 不 同 颜色 的 亮度 。 然 而 图 像 在 存储 时 并 不 是 直接 记录 这 些 矩 
阵 中 的 数字 , 而 是 记录 经 过 压缩 编码 之 后 的 结果 。 所 以 要 将 一 张 图 像 还 原 成 一 个 三 维和 矩阵 ， 
需要 解码 的 过 程 。TensorFlow 提供 了 对 jpeg 和 png 格式 图 像 的 编码 /解码 函数 。 以 下 代码 示 
范 了 如 何 使 用 TensorFlow 中 对 jpeg 格式 图 像 的 编码 /解码 函数 。 

# matplotlib.pyplot 是 一 个 python 的 画图 工具 ”。 在 这 一 节 中 将 使 用 这 个 工具 来 可 视 

#. 化 经 过 TensorFlow 处 理 的 图 像 。 


import matplotlib.pyplot as plt 
import tensorflow as tf 


# 读 取 图 像 的 原始 数据 。 
image raw data = tf.gfile.FastGFile("/path/to/picture", 'r').read!() 


with tf.Session() as sess: 
# 将 图 像 使 用 jpeg 的 格式 解码 从 而 得 到 图 像 对 应 的 三 维和 矩阵 。TensorFlow 还 提供 了 
# tf.image.decode png 函数 对 png 格式 的 图 像 进 行 解码 。 解 码 之 后 的 结果 为 一 个 
# 张 量 ， 在 使 用 它 的 取 值 之 前 需要 明确 调用 运行 的 过 程 。 


img data = tf.image.decode jpeg(image raw data) 


print img data.eval() 
# 输出 解码 之 后 的 三 维 矩 阵 ， 上 面 这 一 行将 输出 下 面 的 内 容 。 


[[[165 160 138] 


[LOsdRlUOi "5301,] 


QD 关于 pyplot 更 加 详细 的 介绍 可 以 参考 http://matplotlib.org/index.html 
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[[166 161 139] 


[106 139 48]] 


[[207 200 181] 


[106 81 50]]] 


# 使 用 pyplot 工具 可 视 化 得 到 的 图 像 。 可 以 得 到 图 7-1 中 展示 了 的 图 像 。 
plt.imshow (img data.eval ()) 
plt.show'() 


# 将 数据 的 类 型 转化 成 实数 方便 下 面 的 样 例 程序 对 图 像 进行 处 理 。 
img data = tf.image.convert image dtype (img data, dtype=tf.float32) 


# 将 表示 一 张 图 像 的 三 维 矩阵 重新 按照 jpeg 格式 编码 并 存 入 文件 中 。 打 开 这 张 图 像 ， 

# 可 以 得 到 和 原始 图 像 一 样 的 图 像 。 

encoded _ image = tf.image.encode jpeg (limg data) 

with tf.gfile.GFile("/path/to/output", "wb") as 工 : 
f.write(encoded :image .eVval() ) 


图 7-1 显示 了 上 面 代码 可 视 化 出 来 的 一 张 图 像 ， 在 下 面 的 篇 幅 中 将 继续 使 用 这 张 图 像 
来 介绍 TensorFlow 其 他 图 像 处 理 的 函数 。 





0 500 1000 1500 2000 


7-1 本 节 样 例 代码 中 使 用 到 的 原始 图 像 ” 
图 像 大 小 调整 
一 般 来 说 ， 网 络 上 获取 的 图 像 大 小 是 不 固定 ， 但 神经 网 络 输入 节点 的 个 数 是 固定 的 。 


QD 原始 图 像 是 彩色 的 ， 在 GitHub 代码 库 里 有 原始 图 像 。 
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所 以 在 将 图 像 的 像素 作为 输入 提供 给 神经 网 络 之 前 ， 需 要 先 将 图 像 的 大 小 统一 。 这 就 是 图 
像 大 小 调整 需要 完成 的 任务 。 图 像 大 小 调整 有 两 种 方式 ， 第 一 种 是 通过 算法 使 得 新 的 图 像 
尽量 保存 原始 图 像 上 的 所 有 信息 。TensorFlow 提供 了 四 种 不 同 的 方法 ， 并 且 将 它们 封装 到 
了 tfimage.resize images 函数。 以 下 代码 示范 了 如 何 使 用 这 个 函数 。 


# 加 载 原始 图 和 像 ， 定 义 会 话 等 过 程 和 图 像 编 码 处 理 中 代码 一 致 ， 在 下 面 的 样 例 中 就 全 部 略 去 了 ， 
# 假设 img_data 是 已 经 解码 且 进 行 过 类 型 转化 的 图 像 。 


# 通过 tf.image.resize images 函数 调整 图 像 的 大 小 。 这 个 函数 第 一 个 参数 为 原始 图 像 ， 
# 第 二 个 和 第 三 个 参数 为 调整 后 图 像 的 大 小 ，method 参数 给 出 了 调整 图 像 大 小 的 算法 。 


resized = tf.image.resize images (img data, 300, 300, method=0) 


# 输出 调整 后 图 像 的 大 小 ， 此 处 的 结果 为 (300，300，?)。 表 示 图 像 的 大 小 是 300x300， 
# 但 图 像 的 深度 在 没有 明确 设置 之 前 会 是 问号 。 
print img data.get shape() 


# 通过 pyplot 可 视 化 的 过 程 和 图 像 编 码 处 理 中 给 出 的 代码 一 致 ， 在 以 下 代码 中 也 将 略 去 。 


表 7-1 给 出 了 引 image.resize images 函数 的 method 参数 取 值 对 应 的 图 像 大 小 调整 算法 。 
7-2 对 比 了 不 同 大 小 调整 算法 得 到 的 结果 。 


表 7-1 人 fimage.resize_images 函数 中 method 参数 取 值 与 相对 应 的 图 像 大 小 调整 算法 
图 像 大 小 调整 算法 
双 线 性 插值 法 〈Bilinear interpolation) 


最 近邻 居 法 (Nearest neighbor intempolation ) 
双 三 次 插值 法 (Bicubic interpolation) 
面积 插值 法 (Area interpolation ) 








:000 15900 2000 





原始 图 像 (a) 双 线 性 插值 法 〈b) 最 近邻 居 (ce) 


_ 


@ 更 详细 的 介绍 可 以 参考 https:Wen.wikipedia.org/wiki/Bilinear_interpolation 。 
回 更 详细 的 介绍 可 以 参考 https://en.wikipedia.org/wiki/Nearest-neighbor_interpolation: 
@ 更 详细 的 介绍 可 以 参考 https://en.wikipedia.org/wiki/Bicubic_interpolation。 


175 


ww ai bbt.com DODOUDDDD 





TensorFlow; 实战 Google 深度 学 习 框 架 





tnr Ms Er 2 


双 三 次 插值 法 (d) 面积 插值 法 (e) 
图 7-2 使 用 引 image.resize images 图 数 中 不 同 图 像 大 小 调整 算法 的 效果 对 比 图 


从 图 7-2 中 可 以 看 出 ， 不 同 算法 调整 出 来 的 结果 会 有 细微 差别 ， 但 不 会 相差 太 远 。 除 
了 将 整 张 图 像 信息 完整 保存 ，TensorFlow 还 提供 了 API 对 图 像 进行 裁剪 或 者 填充 。 以 下 代 
码 展 示 了 通过 tfimage.resize image With crop or pad 函数 来 调整 图 像 大 小 的 功能 。 


# 通过 tf, image.resize image With crop or pad 函数 调整 图 像 的 大 小 。 这 个 函数 的 
# 第 一 个 参数 为 原始 图 像 ， 后 面 两 个 参数 是 调整 后 的 目标 图 像 大 小 。 如 果 原 始 图 像 的 尺寸 大 于 目标 
# 图 像 ， 那 么 这 个 函数 会 自动 截取 原始 图 像 中 居中 的 部 分 〈 如 图 7-3 (b) 所 示 )。 如 果 目 标 图 像 
# 大 于 原始 图 像 ， 这 个 函数 会 自动 在 原始 图 像 的 四 周 填充 全 0 背景 (如 图 7-3(c) 所 示 )。 因 为 原 
# 始 图 像 的 大 小 为 1797x2673, 所 以 下 面 的 第 一 个 命令 会 自动 剪裁 , 而 第 二 个 命令 会 自动 填充 。 
croped = tf.image.resize image with crop or padl(limg data, 1000, 1000) 
padded = tf,image.resize image with crop or pad(img data, 3000, 3000) 





原始 图 像 (a) 自动 裁 竟 到 1000X1000 (b) 自动 填充 到 3000X3000《〈c) 
7-3 使 用 timage.resize image_ with_crop_or pad 函数 调整 图 像 大 小 结果 对 比 图 


TensorFlow 还 支持 通过 比例 调整 图 像 大 小 ”以 下 代码 给 出 了 一 个 样 例 。 


# 通过 tf.image. central crop 函数 可 以 按 比 例 裁 剪 图像 。 这 个 函数 的 第 一 个 参数 为 原始 图 
# 像 ， 第 三 个 为 调整 比例 ， 这 个 比例 需要 是 一 个 (0,1] 的 实数 。 图 7-4 (b) 中 显示 了 调整 之 

# 后 的 图 像 。 

central cropped = tf.image.central crop (img data, 0.5) 

上 面 介绍 的 图 像 裁剪 函数 都 是 截取 或 者 填充 图 像 中 则 的 部 分 。TensorFlow 也 提供 了 
tfimage.crop to _ bounding box 函数 和 tfimage.pad to _ bounding box 函数 来 剪裁 或 者 填充 给 
定 区 域 的 图 像 。 这 两 个 函数 都 要 求 给 出 的 尺寸 满足 一 定 的 要 求 ， 否 则 程序 会 报错 。 比 如 在 
使 用 timage.crop to_bounding box 函数 时 ，TensorFlow 要 求 提供 的 图 像 尺 寸 要 大 于 目标 尺 
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寸 ， 也 就 是 要 求 原始 图 像 能 够 裁剪 出 目标 图 像 的 大 小 。 这 里 就 不 再 给 出 每 个 函数 的 具体 样 
例 ， 有 兴趣 的 读者 可 以 自行 参考 TensorFlow 的 API 文档 。 
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原始 图 像 (a) 截取 中 间 50% 的 图 像 (b 
图 7-4 使 用 timage. central crop 函数 调整 图 像 大 小 结果 对 比 图 


图 像 翻 转 
TensorFlow 提供 了 一 些 函 数 来 支持 对 图 像 的 翻转 。 以 下 代码 实现 了 将 图 像 上 下 翻转 、 
左右 翻转 以 及 沿 对 角 线 翻转 的 功能 。 
# 将 图 像 上 下 翻转 ， 翻 转 后 的 效果 见 图 7=5 (b) 。 
flipped = tf.image.flip up down (img data) 
# 将 图 像 左 右 翻 转 ， 翻 转 后 的 效果 见 图 7-5 (c)。 
flipped = tf.image.flip left right (img data) 
# 将 图 像 沿 对 角 线 翻转 ， 翻 转 后 的 效果 见 图 7-5 (d)。 


transposed = tf.image.transpose _ image (img data) 






A 全 六 量 
bb S - < 
~ 


原始 图 像 (a) 








000 306 


左右 翻转 《e) 沿 对 角 线 翻转 〈d) 
图 7-5 图 像 翻转 效果 图 
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在 很 多 图 像 识别 问题 中 ， 图 像 的 翻转 不 会 影响 识别 的 结果 。 于 是 在 训练 图 像 识 别 的 神 

经 网 络 模型 时 , 可 以 随机 地 翻转 训练 图 像 ， 这 样 训练 得 到 的 模型 可 以 识别 不 同 角度 的 实体 。 
比如 假设 在 训练 数据 中 所 有 的 猫 头 都 是 向 右 的 ， 那 么 训练 出 来 的 模型 就 无 法 很 好 的 识别 猎 
头 同 左 的 猎 。 虽 然 这 个 问题 可 以 通过 收集 更 多 的 训练 数据 来 解决 ， 但 是 通过 随机 翻转 训练 
图 像 的 方式 可 以 在 零 成 本 的 情况 下 很 大 程度 地 缓解 该 问题 。 所 以 随机 翻转 训练 图 像 是 一 种 
很 常用 的 图 像 预 处 理 方 式 。TensorFlow 提供 了 方便 的 API 完成 随机 图 像 翻转 的 过 程 。 


# 以 一 定 概率 上 下 翻转 图 像 。 

flipped = tf.image.random flip up down (img data) 

# 以 一 定 概率 左右 翻转 图 像 。 

flipped = tf.image.random flip left right (img Gata) 


图 像 色彩 调整 


和 图 像 翻转 类 似 ， 调 整 图 像 的 亮度 、 对 比 度 、 饱 和 度 和 色相 在 很 多 图 像 识 别 应 用 中 都 
不 会 影响 识别 结果 。 所 以 在 训练 神经 网 络 模型 时 ， 可 以 随机 调整 训练 图 像 的 这 些 属 性 ， 从 
而 使 得 训练 得 到 的 模型 尽 可 能 小 地 受到 无 关 因素 的 影响 。TensorFlow 提供 了 调整 这 些 色彩 
相关 属性 的 API。 以 下 代码 显示 了 如 何 修改 图 像 的 亮度 。 


# 将 图 像 的 亮度 -0.5， 得 到 的 图 像 效 果 如 图 7- 6 (b) 所 示 。 
adjusted = tf.image.adjust _ brightness(img data, -0.5) 
# 将 图 像 的 亮度 -0 .5， 得 到 的 图 像 效 果 如 图 7-6 (c) 所 示 。 
adjusted = tf.,.image.adjust brightness (img data, 0.5) 
# 在 [-max delta，max delta) 的 范围 随机 调整 图 像 的 亮度 。 


adjusted = tf.image.random brightness (image max delta) 











wn EE To ten 7358 6 Se In 1 TD 


原始 图 像 (a) : | 亮度 -0.5 (b) 亮 麻 +0.5 (ce) 
图 7-6 图 像 亮 度 调 整 效果 图 ? 
以 下 代码 显示 了 如 何 调整 图 像 的 对 比 度 。 
# 将 图 像 的 对 比 度 =5， 得 到 的 图 像 效 果 如 图 7-7 (b) 所 示 。 


adjusted = tf.image.adjust contrast (img data, -5) 
# 将 图 像 的 对 比 度 +5， 得 到 的 图 像 效 果 如 图 7-7 (c) 所 示 。 
adjusted = tf.image.adjust contrast(img data, 5) 


中 在 黑白 图 片上 色相 的 调整 不 是 特别 明显 ， 在 彩色 图 片上 的 效果 会 比较 明显 。 
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# 在 [lower，upper] 的 范围 随机 调整 图 的 对 比 度 。 


adjusted = tf.image.random contrast (image, lower, upper) 





USS 六 0 *000 


对 比 度 -5 Cb) 对 比 度 +5 (c) 
图 7-7 图 像 对 比 度 调整 效果 图 





以 下 代码 显示 了 如 何 调整 图 像 的 色相 。 


# 下 面 四 条 命令 分 别 将 色相 加 0.1、0.3、0.6 和 0.9, 得 到 的 效果 分 别 在 
# 图 7-8(b)，(c)，(d)，(e) 中 展示 。 


adjusted = tf.image.adjust hue (img data, 0.1) 
adjusted = tf.image.adjust hue (img data, 0.3) 
adjusted = tf.image.adjust hue (img data, 0.6) 


adjusted = tf.image.adjust hue (img data, 0.9) 
# 在 [-max delta，max delta] 的 范围 随机 调整 图 像 的 色相 。 
# max delta 的 取 值 在 [0，0.5] 之 间 。 


adjusted = tf.image.random hue (image, max delta) 





er 
-ea 
芒 20 


原始 图 像 《a) 












i500 


色相 +0.6(d) 色相 +0.9(e) 


1s06 0 


7-8 ”图 像 色 相 调 整 效果 图 
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以 下 代码 显示 了 如 何 调整 图 像 的 饱和 度 。 
# 将 图 像 的 饱和 度 -5， 得 到 的 图 像 效 果 如 图 7-9(b) 所 示 。 


adjusted = tf.image.adjust saturation(img data, -5) 
# 将 图 像 的 饱和 度 +5， 得 到 的 图 像 效果 如 图 7=9 (c) 所 示 。 
adjusted = tf.image.adjust saturation(img data, 5) 
# 在 [lower，upper] 的 范围 随机 调整 图 的 饱和 度 。 


adjusted = tf.image.random saturation (image, lower, upper) 













en shan 


饱和 度 -5 (b) 
图 7-9 ”图像 饱和 度 调 整 效果 图 





[1 15 


原始 图 像 (a) 饱和 度 +5 (c) 


除了 调整 图 像 的 亮度 、 对 比 度 、 饱 和 度 和 色相 ，TensorFlow 还 提供 API 来 完成 图 像 标 
准 化 的 过 程 。 这 个 操作 就 是 将 图 像 上 的 亮度 均值 变 为 0， 方差 变 为 1。 以 下 代码 实现 了 这 个 
功能 。 

# 将 代表 一 张 图 像 的 三 维 矩 阵 中 的 数字 均值 变 为 0, 方差 变 为 1。 调整 后 的 图 像 如 图 7-10 (b) 。 


adjusted = tf.image.per image whitening (img data) 





J 
pn 
m0 











原始 图 像 (a) 调整 后 图 像 〈b) 


图 7-10 图 像 标准 化 效果 图 
处 理 标注 框 
在 很 多 图 像 识 别 的 数据 集中 ， 图 像 中 需要 关注 的 物体 通常 会 被 标注 框 圈 出 来 。 
TensorFlow 提供 了 一 些 工 具 来 处 理 标 注 框 。 下 面 这 段 代 码 展示 了 如 何 通 过 
ttimage.draw_bounding_boxes 函数 在 图 像 中 加 入 标注 框 。 
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# 将 图 像 缩 小 一 些 ， 这 样 可 视 化 能 让 标注 框 更 加 清楚 。 
img data = tf.image.resize images (img data, 180, 267, method=]1) 
# tf.image.draw _ bounding boxes 函数 要 求 图 像 矩 阵 中 的 数字 为 实数 ， 所 以 需要 先 将 
# 图 像 和 矩阵 转 化 为 实数 类 型 。tf.image.draw bounding boxes 函数 图 像 的 输入 是 一 个 
# bacth 的 数据 ， 也 就 是 多 张 图 像 组 成 的 四 维 窍 阵 ， 所 以 需要 将 解码 之 后 的 图 像 矩 阵 加 一 维 。 
batched = tf.expand Qimas ( 
tf.image.convert image dtype(img data, tf.float32), 0) 
四 给 出 每 一 张 图 像 的 所 有 标注 框 。 一 个 标注 框 有 四 个 数字 ， 分 别 代表 [yn Na Dio Tadic]s 
# 注意 这 里 给 出 的 数字 都 是 图 像 的 相对 位 置 。 比 如 在 180X267 的 图 像 中 ， 
# [0.35/， 0.47，0,5，0,56]1 代 表 了 从 〈63，125) 到 (90，150) 的 图 像 。 
boxes'.= tf.,constant ([[[0.05, 0.05, 0.9, 0.7], [0.35: 0.477 0.5, '0%56]]]) 
# 图 7-11 显示 了 加 入 了 标注 框 的 图 像 。 


result = tf.image.draw bounding boxes (batched, boxes) 





7-11 在 图 像 中 加 入 标注 框 (图 中 大 的 标注 框 标明 了 猫 脸 的 位 置 , 小 的 标注 框 标 明了 猫 的 一 只 眼睛 的 位 置 ) 


和 随机 翻转 图 像 、 随 机 调整 颜色 类 似 ， 随 机 截取 图 像 上 有 信息 含量 的 部 分 也 是 一 个 提 

高 模型 健壮 性 〈robustness) 的 一 种 方式 。 这 样 可 以 使 训练 得 到 的 模型 不 受 被 识别 物体 大 小 
的 影响 。 下 面 的 程序 中 展示 了 如 何 通过 tfimage.sample distorted _ bounding box 函数 来 完成 
随机 截取 图 像 的 过 程 。 

DOxesism es constant tt 0 OA 

# 可 以 通过 提供 标注 框 的 方式 来 告诉 随机 截取 图 像 的 算法 哪些 部 分 是 “有 信息 量 ” 的。 

begin, size, bbox for draw = tf.image.sample distorted bounaing box! 

tf.shape (img data), bounding boxes=boxes) 


# 通过 标注 框 可 视 化 随机 截取 得 到 的 图 像 。 得 到 的 结果 如 图 7-12 左 侧 所 示 。 
batched = tf.expand Qims ( 
tf.image.convert image dtype (img data, tf， float32), 0) 
image with box = tf.image.draw bounding boxes(batched, bbox for draw) 
# 截取 随机 出 来 的 图 像 。 得 到 的 结果 如 图 7-12 右 侧 所 示 。 因 为 算法 带 有 随机 成 分 ， 所 以 
# 每 次 得 到 的 结果 会 有 所 不 同 。 


distorted image = tf.slicel(img data, begin, size) 
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图 7-12 在 图 像 中 随机 加 入 的 标注 框 ( 左 〉 以 及 通过 titre 


7.2.2 图像 预 处 理 完 整 样 例 


在 7.2.1 小 节 中 详细 讲解 了 TensorFlow 提供 的 主要 的 图 像 处 理 函 数 。 在 解决 真实 的 图 
像 识 别 问题 时 ， 一 般 会 同时 使 用 多 种 处 理 方法 。 这 一 个 小 节 将 给 出 一 个 完整 的 样 例 程序 展 
示 如 何 将 不 同 的 图 像 处 理 函 数 结合 成 一 个 完成 的 图 像 预 处 理 流 程 。 以 下 TensorFlow 程序 完 
成 了 从 图 像 片 段 截 取 ， 到 图 像 大 小 调整 再 到 图 像 翻转 及 色彩 调整 的 整个 图 像 预 处 理 过 程 。 


import tensorflow as tf 


import numpy as np 
import matplotlib.pyplot as pilt 


# 给 定 一 张 图 像 ， 随 机 调整 图 像 的 色彩 。 因 为 调整 亮度 、 对 比 度 、 饱 和 度 和 色相 的 顺序 会 影 
# 响 最 后 得 到 的 结果 ， 所 以 可 以 定义 多 种 不 同 的 顺序 。 具 体 使 用 哪 一 种 顺序 可 以 在 训练 
# 数据 预 处 理 时 随机 的 选择 一 种 。 这 样 可 以 进一步 降低 无 关 因素 对 模型 的 影响 。 
def distort color(image, color ordering=0) : 
if color ordering == 0: 
image = tf.image.random brightness (image, max delta=32. / 255.) 
image = tf.image.random saturation (image, lower=0.5, upper=1.5) 
image = tf.image.random hue (image, max delta=0 .2) 
image = tf.image.random contrast (image, lower=0.5, upper=]1 .5) 
elif color ordering == 
image = tf.image.random saturation(image, lower=0.5, upper=1 .5) 
image 


tf.image.random brightness (image, max delta=32. / 255.) 


image = tf.image.random contrast (image, lower=0.5, upper=1.5) 
image = tf.image.random hue (image max delta=0.2) 
elif color ordering == 


# 还 可 以 定义 其 他 的 排列 ， 但 在 这 里 就 不 再 一 一 列 出 。 
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return tf.clip by valuel(limage, 0.0, 1.0) 


# 给 定 一 张 解码 后 的 图 像 、 目 标 图 像 的 尺寸 以 及 图 像 上 的 标注 框 ， 此 函数 可 以 对 给 出 的 图 像 进 行 预 
# 处 理 。 这 个 函数 的 输入 图 像 是 图 像 识 别 问 题 中 原始 的 训练 图 像 ， 而 输出 则 是 神经 网 络 模型 的 输入 
# 层 。 注 意 这 里 只 处 理 模型 的 训练 数据 ， 对 于 预测 的 数据 ， 一 般 不 需要 使 用 随机 变换 的 步骤 。 
def preprocess for train(image, height, width, bbox): 

# 如 果 没 有 提供 标注 框 ， 则 认为 整个 图 像 就 是 需要 关注 的 部 分 。 

if bbox is None: 

Dhboxs=° tfCconstanGGLo0e0 oO 0 LO 1.0]s 
dtype=tf.float32, shape=[l1, 1, 4]) 
# 转换 图 像 张 量 的 类 型 。 
if image.dtype != tf.float32: 


image = tf.image.convert image dtype (image, dtype=tf.float32) 


# 随机 截取 图 像 ， 减 小 需要 关注 的 物体 大 小 对 图 像 识 别 算法 的 影响 。 
bbox begin, bbox size, _ = tf.image.sample distorted bounding box! 
tf.shape (image), bounding boxes=bbox) 
distorted image = tf.slice(image, bbox begin, bbox size) 
# 将 随机 截取 的 图 像 调整 为 神经 网 络 输 入 层 的 大 小 。 大 小 调整 的 算法 是 随机 选择 的 。 
distorted image = tf.image.resize lmages ( 
distorted image, height, width, method=np.random.randint (4)) 
# 随机 左右 翻转 图 像 。 
distorted image = tf.image.random flip left right (distorted image) 
# 使 用 一 种 随机 的 顺序 调整 图 像 色彩 。 


distorted image = distort colorl(distorted image, np.random.randint (2)) 
return distorted image 


image raw data = tf.gfile.FastGFile("/path/to/picture", "rz") .read () 
with tf.Session() as sess: 


img data = tf.image.decode jpeg(image raw data) 
boxes = tf.constant ([{[[0.05, 0.05, 0.9, 0.7], [0.35, 0.47, 0.5, 0.56]]]) 


# 运行 6 次 获得 6 种 不 同 的 图 像 ， 在 图 7-13 展示 了 这 些 图 像 的 效果 。 
for i in range (6) : 
# 将 图 像 的 尺寸 调整 为 299x299。 
result = preprocess for train (img data, 299, 299, boxes) 
plt.imshow (result .eval {()) 
plt.show!() 
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图 7-13 运行 6 次 图 像 预 处 理 得 出 的 6 张 不 同 的 图 像 


运行 上 面 这 段 程 序 ， 可 以 得 到 类 似 图 7-13 中 所 示 的 图 像 。 这 样 就 可 以 通过 一 张 训练 图 
像 衍生 出 很 多 训练 样本 。 通 过 将 训练 图 像 进行 预 处 理 ， 训 练 得 到 的 神经 网 络 模型 可 以 识别 
不 同 大 小 、 方 位 、 色 彩 等 方面 的 实体 。 


7.3 ”多 线程 输入 数据 处 理 框 染 


在 7.2 节 中 介绍 了 使 用 TensorFlow 对 图 像 数 据 进 行 预 处 理 的 方法 。 虽 然 使 用 这 些 图 像 
数据 预 处 理 的 方法 可 以 减 小 无 关 因素 对 图 像 识 别 模型 效果 的 影响 ， 但 这 些 复杂 的 预 处 理 过 
程 也 会 减 慢 整 个 训练 过 程 ?。 为 了 避免 图 像 预 处 理 成 为 神经 网 络 模型 训练 效率 的 瓶颈 ， 
TensorFlow 提供 了 一 套 多 线程 处 理 输 入 数据 的 框架 ,在 本 节 中 将 详细 介绍 这 个 框架 ,图 7-14 
总 结 了 一 个 经 典 的 输入 数据 处 理 的 流程 ， 在 以 下 的 各 个 小 节 中 ， 将 依次 介绍 这 个 流程 的 不 
同 部 分 。 


Q@ 本 章 中 主要 以 图 像 识 别 应 用 为 背景 介绍 数据 预 处 理 流程 ， 但 读者 可 以 很 容易 将 这 个 框架 应 用 到 其 他 类 
型 的 数据 上 。 
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指定 原始 数据 的 文件 列表 


创建 文件 列表 队列 


从 六 体 中 迹 取 数据 


数据 预 处 理 


和 


3 


将 理 成 Batch 作 为 神经 网 络 输入 





图 7-14 经 典 输 入 数据 处 理 流 程 图 


7.3.1 小 节 将 首先 介绍 TensorFlow 中 队列 的 概念 。 在 TensorFlow 中 ， 队 列 不 仅 是 一 种 
数据 结构 , 它 更 提供 了 多 线程 机 制 。 队列 也 是 TensorFlow 多 线程 输入 数据 处 理 框架 的 基础 。 
然后 在 7.3.2 小 节 中 将 介绍 如 何在 TensorFlow 中 实现 图 7-14 中 的 前 三 步 。TensorFlow 提供 
了 tftrain,string input producer 函数 来 有 效 管理 原始 输入 文件 列表 。 在 7.3.2 小 节 中 将 重点 
介绍 如 何 使 用 这 个 函数 。 图 7-14 中 数据 预 处 理 的 部 分 已 经 在 7.2 节 中 有 过 详细 介绍 ， 本 节 
不 再 重复 。 接 着 在 7.3.3 小 节 中 将 介绍 图 7-14 中 的 最 后 一 个 流程 。 这 个 流程 将 处 理 好 的 单 
个 训练 数据 整理 成 训练 数据 batch, 这 些 batch 就 可 以 作为 神经 网 络 的 输入 。7.3.3 小 节 将 介 
绍 给 train.shuffle batch join 和 tftrain.shuffle _ batch 函数， 并 比较 不 同 函数 的 多 线程 并 行 方 
式 。 最 后 在 7.3.4 小 节 中 将 给 出 一 个 完整 的 TensorFlow 程序 来 展示 整个 输入 数据 处 理 框 架 。 


7.3.1 队列 与 多 线程 


在 TensorFlow 中 ， 队 列 和 变量 类 似 ， 都 是 计算 图 上 有 状态 的 节点 。 其 他 的 计算 节点 可 
以 修改 它们 的 状态 。 对 于 变量 ， 可 以 通过 赋值 操作 修改 变量 的 取 值 "。 对 于 队列 ， 修 改 队列 
状态 的 操作 主要 有 Enqueue、EnqueueMany 和 Dequeue。 以 下 程序 展示 了 如 何 使 用 这 些 函 数 
来 操作 一 个 队列 。 


import tsnsorflow as tf 
# 创建 一 个 先进 先 出 队列 ， 指 定 队 列 中 最 多 可 以 保存 两 个 元 素 ， 并 指定 类 型 为 整数 。 


9 三 七 证.EFIEROQOueuel(2r "int32") 


QD 第 4 章 中 详细 介绍 了 TensorFlow 中 的 变量 : 
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# 使 用 enqueue_many 函数 来 初始 化 队列 中 的 元 素 。 和 变量 初始 化 类 似 ， 在 使 用 队列 之 前 
# 需要 明确 的 调用 这 个 初始 化 过 程 。 

init = q.enqueue many(([0，10]，)) 

# 使 用 Dequeue 函数 将 队列 中 的 第 一 个 元 素 出 队列 。 这 个 元 素 的 值 将 被 存在 变量 x 中 。 

x = gq.dequeue() 

# 将 得 到 的 值 加 1。 

Y= 

# 将 加 1 后 的 值 在 重新 加 入 队列 。 

q_inc = gq.enqueue([y]) 


with tf.Session() as sess: 
# 运行 初始 化 队列 的 操作 。 
init .run() 
for in range (9): 
# 运行 q_inc 将 执行 数据 出 队列 、 出 队 的 元 素 +1、 重 新 加 入 队列 的 整个 过 程 。 
= Sess。.run([x, q inc]) 
。 打 印 出 队 元 素 的 取 值 。 


print v 


队列 开始 有 [0,10] 两 个 元 素 ， 第 一 个 出 队 的 为 0， 加 1 之 后 再 次 入 队 得 到 的 队列 为 [10,1]; 第 二 
次 出 队 的 为 10， 加 1 之 后 入 队 的 为 11， 得 到 的 队列 为 [1, 11]; 以 此 类 推 ， 最 后 得 到 的 输出 为 : 

0 

10 

看 

11 

2 


TensorFlow 中 提供 了 FIFOQueue 和 RandomShuffleQueue 两 种 队列 。 在 上 面 的 程序 中 ， 
已 经 展示 了 如 何 使 用 FIFOQueue， 它 的 实现 的 是 一 个 先进 先 出 队列 。RandomShuffleQueue 
会 将 队列 中 的 元 素 打 乱 , 每 次 出 队列 操作 得 到 的 是 从 当前 队列 所 有 元 素 中 随机 选择 的 一 个 。 
在 训练 神经 网 络 时 希望 每 次 使 用 的 训练 数据 尽量 随机 ，RandomShuffleQueue 就 提供 了 这 样 
的 功能 。 

在 TensorFlow 中 ， 队 列 不 仅仅 是 一 种 数据 结构 ， 还 是 异步 计算 张 量 取 值 的 一 个 重要 机 
制 。 比 如 多 个 线程 可 以 同时 间 一 个 队列 中 写 元 素 ， 或 者 同时 读 取 一 个 队列 中 的 元 素 。 在 后 
面 的 小 节 中 将 具体 介绍 TensorFlow 是 如 何 利 用 队列 来 实现 多 线程 输入 数据 处 理 的 。 在 本 小 
节 之 后 的 内 容 中 将 先 介 绍 TensorFlow 提供 的 辅助 函数 来 更 好 地 协同 不 同 的 线程 。 

TensorFlow 提供 了 给 Coordinator 和 tf.QueueRunner 两 个 类 来 完成 多 线程 协同 的 功能 
tf.Coordinator 主要 用 于 协同 多 个 线程 一 起 停止 ， 并 提供 了 should_stop、request_stop 和 join 
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三 个 函数 。 在 启动 线程 之 前 ， 需 要 先 声明 一 个 给 Coordinator 类 ， 并 将 这 个 类 传 入 每 一 个 创 
建 的 线程 中 。 启 动 的 线程 需要 一 直 查 询 引 Coordinator 类 中 提供 的 should stop 函数 ， 当 这 个 
函数 的 返回 值 为 Te 时 ， 则 当前 线程 也 需要 退出 。 每 一 个 启动 的 线程 都 可 以 通过 调用 
request_stop 函数 来 通知 其 他 线程 退出 。 当 某 一 个 线程 调用 request_stop 胃 数 之 后 ， 

should stop 函数 的 返回 值 将 被 设置 为 True， 这 样 其 他 的 线程 就 可 以 同时 终止 了 。 以 下 程序 
展示 了 如 何 使 用 tf.Coordinator。 


import tensorflow as tf 
import numpy as np 
import threading 

import time 


# 线程 中 运行 的 程序 ， 这 个 程序 每 隔 1 秒 判 断 是 否 需 要 停止 并 打印 自己 的 ID。 
def MyLoop (coord, worker id): 
# 使 用 tf .Coordinator 类 提供 的 协同 工具 判断 当前 线程 是 否 需 要 停止 。 
while not coord.should stop(): 
# 随机 停止 所 有 的 线程 。 
if np.random.rand() < 0.1 : 
print "Stoping from id: %d\n" % worker id， 
# 调用 coord.request stop() 函数 来 通知 其 他 线程 停止。 
coord.request stop() 
else: 
# 打印 当前 线程 的 Id。 
print "Working on id: %d\n" % worker id, 
# 暂停 1 秒 


time.sleep (1) 


# 声明 一 个 tf.train.Coordinator 类 来 协同 多 个 线程 。 
coord = tf.train.Coordinator () 
# 声明 创建 5 个 线程 。 
threads = [ 
threading.Thread (target=MyLoop, args=(coord, i, )) for i in xrange(5)] 
# 启动 所 有 的 线程 。 
for 七 In threads: t.start() 
# 等 待 所 有 线程 退出 。 


coord.Jjoin (threads) 
运行 上 面 的 程序 ， 可 以 得 到 类 似 下 面 的 结果 : 


Working on id: 0 
Working on id: 1 
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Working on id: 
Working on id: 
Working on id: 


加 WU wi NN 


Working on id: 

Stoping from id: 4 

Working on id: 1 

当 所 有 线程 启动 之 后 ， 每 个 线程 会 打印 各 自 的 ID， 于 是 前 面 4 行 打印 出 了 它们 的 ID。 
然后 在 暂停 1 秒 之 后 ， 所 有 线程 又 开始 第 二 遍 打 印 ID。 在 这 个 时 候 有 一 个 线程 退出 的 条 件 
达到 , 于 是 调用 了 coord.request_stop 函数 来 停止 所 有 其 他 的 线程 。 然 而 在 打印 Stoping from 
id: 4 之 后 ， 可 以 看 到 有 线程 仍然 在 输出 。 这 是 因为 这 些 线程 已 经 执行 完 coord.should stop 
的 判断 ， 于 是 仍然 会 继续 输出 自己 的 ID。 但 在 下 一 轮 判断 是 否 需 要 停止 时 将 退出 线程 。 于 
是 在 打印 一 次 ID 之 后 就 不 会 再 有 输出 了 。 

tf.QueueRunner 主要 用 于 局 动 多 个 线程 来 操作 同一 个 队列 ， 局 动 的 这 些 线程 可 以 通过 
上 面 介 绍 的 葵 Coordinator 类 来 统一 管理 。 以 下 代码 展示 了 如 何 使 用 共 QueueRunner 和 
tf.Coordinator 来 管理 多 线程 队列 操作 。 


import tensorflow as tf 


# 声明 一 个 先进 先 出 的 队列 ， 队 列 中 最 多 100 个 元 素 ， 类 型 为 实数 。 
queue = tf.FIFOQOueue (100, "float") 
# 定义 队列 的 入 队 操作 。 


enqueue op = queue.enqueue([tf.random normal([1])]) 


# 使 用 tf.train.QueueRunner 来 创建 多 个 线程 运行 队列 的 入 队 操 作 。 
# tf.train.QueueRunner 的 第 一 个 参数 给 出 了 被 操作 的 队列 ，[enqueue op] * 5 
# 表示 了 需要 启动 5 个 线程 ， 每 个 线程 中 运行 的 是 enqueue op 操作 。 


qr = tf.train.QueueRunner (dueue/j [enqueue op] * 5) 


# 将 定义 过 的 QueueRunner 加 入 TensorFlow 计算 图 上 指定 的 集合 。 

# tf.train.add queue runner 函数 没有 指定 集合 ， 和 

# 则 加 入 默认 集合 tf.GraphKeys .OUEUE RUNNERS"。 下 面 的 函数 就 是 将 刚刚 定义 的 
# qr 加 入 默认 的 上 E.GraphKevys .QUEUE RUNNERS 集合 。 
tf.train.add queue runner (gr) 


# 定义 出 队 操作 。 


out tensor = queue.dequeue() 


with tf.Session() as sess: 
Q@ 第 3 章 介 绍 了 TensorFlow 计算 图 中 集合 的 概念 。 
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# 使 用 tf.train.Coordinator 来 协同 启动 的 线程 。 

coord = tf.train.Coordinator () 

# 使 用 tf.train.QueueRunner 时 ， 需 要 明确 调用 tf.train.start_ queue runners 
# 来 启动 所 有 线程 。 否 则 因为 没有 线程 运行 入 队 操 作 ， 当 调用 出 队 操 作 时 ， 程 序 会 一 直 等 待 入 
# 队 操 作 被 运行 。tf.train.start queue runners 函数 会 默认 局 动 

# tf.GraphKeys.QUEUE RUNNERS 集合 中 所 有 的 QueueRunner。 因 为 这 个 函数 只 支持 启 
# 动 指定 集合 中 的 QueueRnner， 所 以 一 般 来 说 tf.train.add queue runner 函数 和 

# tf.train.start queue runners 函数 会 指定 同一 个 集合 。 

threads = tf.train.start queue runners(sess=sess, Coord=coord) 

# 获取 队列 中 的 取 值 。 


for in range(3): print sess,.runl(out tensor) [0] 


# 使 用 tf.train.Coordinator 来 停止 所 有 的 线程 。 
coord.request _ Stop () 
coord.Jjoin (threads) 


上 面 的 程序 将 启动 五 个 线程 来 执行 队列 入 队 的 操作 ， 其 中 每 一 个 线程 都 是 将 随机 数 写 入 队列 。 于 是 
在 每 次 运行 出 队 操作 时 ， 可 以 得 到 一 个 随机 数 。 运 行 这 段 程序 可 以 得 到 类 似 下 面 的 结果 : 
-0.315963 

-1.06425 

0.347479 


7.3.2 ”输入 文件 队列 


本 小 节 将 介绍 如 何 使 用 TensorFlow 中 的 队列 管理 输入 文件 列表 。 在 这 一 小 节 中 ， 假设 
所 有 的 输入 数据 都 已 经 整理 成 了 TFRecord 格式 。 虽 然 一 个 TFRecord 文件 中 可 以 存储 多 个 
训练 样 例 ,但 是 当 训 练 数据 量 较 大 时 , 可 以 将 数据 分 成 多 个 TFRecord 文件 来 提高 处 理 效 率 。 
TensorFlow 提供 了 tftrain.match filenames_once 函数 来 获取 符合 一 个 正则 表达 式 的 所 有 文 
件 ， 得 到 的 文件 列表 可 以 通过 tftrain.string input producer 函数 进行 有 效 的 管理 。 

tftrain.string input producer 函数 会 使 用 初始 化 时 提供 的 文件 列表 创建 一 个 输入 队列 ， 
输入 队列 中 原始 的 元 素 为 文件 列表 中 的 所 有 文件 。 如 7.1 节 中 的 样 例 代码 所 示 ， 创 建 好 的 
输入 队列 可 以 作为 文件 读 取 函 数 的 参数 。 每 次 调用 文件 读 取 函 数 时 ， 该 函数 会 先 判断 当前 
是 否 已 有 打开 的 文件 可 读 ， 如 果 没 有 或 者 打开 的 文件 已 经 读 完 ， 这 个 函数 会 从 输入 队列 中 


Q@ TFRecord 格式 在 7.1 节 中 有 介绍 。 
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出 队 一 个 文件 并 从 这 个 文件 中 读 取 数 据 。 

通过 设置 shuffle 参数 ,tftrain.string input producer 函数 支持 随机 打 乱 文件 列表 中 文件 
出 队 的 顺序 。 当 shuffle 参数 为 True 时 ,文件 在 加 入 队列 之 前 会 被 打 乱 顺序 ， 所 以 出 队 的 顺 
序 也 是 随机 的 。 随 机 打 乱 文件 顺序 以 及 加 入 输入 队列 的 过 程 会 跑 在 一 个 单独 的 线程 上 ， 这 
样 不 会 影响 获取 文件 的 速度 。tftrain.string _ input producer 生成 的 输入 队列 可 以 同时 被 多 个 
文件 读 取 线程 操作 ， 而 且 输 入 队列 会 将 队列 中 的 文件 均匀 地 分 给 不 同 的 线程 ， 不 出 现 有 些 
文件 被 处 理 过 多 次 而 有 些 文件 还 没有 被 处 理 过 的 情况 。 

当 一 个 输入 队列 中 的 所 有 文件 都 被 处 理 完 后 ， 它 会 将 初始 化 时 提供 的 文件 列表 中 的 文 
件 全 部 重新 加 入 队列 .tftrain.string input producer 函数 可 以 设置 num epochs 参数 来 限制 加 
载 初始 文件 列表 的 最 大 轮 数 。 当 所 有 文件 都 已 经 被 使 用 了 设 定 的 轮 数 后 ， 如 果 继 续 尝 试 读 
取 新 的 文件 ， 输 入 队列 会 报 OutOfRange 的 错误 。 在 测试 神经 网 络 模型 时 ， 因 为 所 有 测试 数 
据 上 只 需要 使 用 一 次 ， 所 以 可 以 将 num_epochs 参数 设置 为 1。 这 样 在 计算 完 一 轮 之 后 程序 将 
自动 停止 。 在 展示 tf.train.match_filenames_once 和 tftrain.string input producer 函数 的 使 用 
方法 之 前 ， 下 面 先 给 出 一 个 简单 的 程序 来 生成 样 例 数据 。 


import tensorflow as tf 


# 创建 TFRecora 文件 的 帮助 函数 。 
def int64 feature (value): 
return tf.train.Feature(int64 list=tf.train.Int64List(value=[value])) 


# 模拟 海量 数据 情况 下 将 数据 写 入 不 同 的 文件 。num shards 定义 了 总 共 写 入 多 少 个 文件 ， 
# instances per shard 定义 了 每 个 文件 中 有 多 少 个 数据 。 
num shards = 2 
instances per shard = 2 
for i In range (num shards): 
# 将 数据 分 为 多 个 文件 时 ， 可 以 将 不 同文 件 以 类 似 0000n-of-0000m 的 后 缀 区 分 。 其 中 m 表 
# 示 了 数据 总 共 被 存在 了 多 少 个 文件 中 ，n 表示 当前 文件 的 编号 。 人 
# 则 表达 式 获取 文件 列表 ， 又 在 文件 名 中 加 入 了 更 多 的 信息 。 
filename = ('/path/to/data.tfrecords-%.S5d-of-%.5d' $ (i, num shards)) 
writer = tf.python io.TFRecordWriter (filename) 
# 将 数据 封装 成 Example 结构 并 写 入 TFRecord 文件 。 
for ] in range(linstances Per Shard) : 
# Example 结构 仅 包含 当前 样 例 属 于 第 几 个 文件 以 及 是 当前 文件 的 第 几 个 样本 。 
example = tf.train.Example (Eteatures=tft .train.Features(fteature={ 
'i': int64 feature(i), 
本 412 int64 feature (dS)}),) 
writer,.write(example.SerializeToString!{()) 
writer.close!() 
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程序 运行 之 后 ,在 指定 的 目录 下 将 生成 两 个 文件 : /path/to/data.tfrecords-00000-of-00002 
和 /path/to/data.tfrecords-00001-of-00002。 每 一 个 文件 中 存储 了 两 个 样 例 。 在 生成 了 样 例 数 
据 之 后 ， 以 下 代码 展示 了 train.match filenames_once 函数 和 tf.train.string input producer 
函数 的 使 用 方法 。 


import tensorflow as tf 


# 使 用 tf.train.match filenames_once 函数 获取 文件 列表 。 


files = tf.train.match filenames once("/path/to/data.tfrecords-*") 


# 通过 tf.train.string input producer 函数 创建 输入 队列 ， 输 入 队列 中 的 文件 列表 为 
# tf.train.match filenames_once 函数 获取 的 文件 列表 。 这 里 将 shuffle 参数 设 为 False 
# 来 避免 随机 打 乱 读 文件 的 顺序 。 但 一 般 在 解决 真实 问题 时 ， 会 将 shuffle 参数 设置 为 True。 


filename queue = tf.train.string input producer (files, shuffle=False) 


# 如 7.1 节 中 所 示 读 取 并 解析 一 个 样本 。 
reader = tf.TFRecordReader () 
+: Serialized example = reader.read(filename queue) 
features = tf.parse single examplel( 
serialized example, 
features=1! 
1ij': tf.FixedLenFeature([], tf.int64), 
1j': tf.FixedLenFeature([], tf.int64), 
}) 


with tf.Session() as sess: 
# 虽然 在 本 段 程序 中 没有 声明 任何 变量 ,但 使 用 tf.train.match filenames _once 函数 时 需 
# 要 初始 化 一 些 变量 。 


tf.initialize all Variables() .run() 


打印 文件 列表 将 得 到 下 面 的 结果 : | 
['/path/to/data.tfrecords-00000-of-00002' 
'/path/to/data.tfrecords-00001-of-00002'] 


print sess.run (files) 


# 声明 tf.train.Coordinato 类 来 协同 不 同 线程 ， 并 启动 线程 。 
coord = tf.train.Coordinator () | 
threads = tf.train.start queue runners (sess=sess, coord=coord) 


# 多 次 执行 获取 数据 的 操作 。 
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for i an range (6): 

print sess.run([features['i'], features['j']]) 
coord.request stop () 
coorQ. join(threads ) 


上 面 的 打印 将 输出 ; 


[0, 0] 
[0, 1] 
[1, 0] 
[2 2] 
[0, 0] 
[0, 1] 


在 不 打 乱 文件 列表 的 情况 下 ， 会 依次 读 出 样 例 数 据 中 的 每 一 个 样 例 。 而 且 当 所 有 样 例 
都 被 读 完 之 后 ， 程 序 会 自动 从 头 开 始 。 如 果 限 制 num_epochs 为 1， 那么 程序 将 会 报错 : 


tensorflow.python.framework.errors.OutOfRangeError: FIFOQueue 


' 0 input producer' is closed and has insufficient elements (requested 1, 
Current’ size 0) 


[[Node: ReaderRead = ReaderRead[ class=["loc:@TFRecordReader", "loc: 
@input producer"], 
Gevice="/job:localhost/replica:0/task:0/cpu:0"] (TFRecordReader, 
input producer)]] 


7.3.3 组 合 训 练 数据 ( batching ) 


在 7.3.2 小 节 中 已 经 介绍 了 如 何 从 文件 列表 中 读 取 单个 样 例 ， 将 这 些 单 个 样 例 通 过 7.2 
节 中 介绍 的 预 处 理 方法 进行 处 理 ， 就 可 以 得 到 提供 给 神经 网 络 输 入 层 的 训练 数据 了 。 在 第 
4 章 介 绍 过 ,将 多 个 输入 样 例 组 织 成 一 个 batch 可 以 提高 模型 训练 的 效率 。 所 以 在 得 到 单个 
样 例 的 预 处 理 结果 之 后 ， 还 需要 将 它们 组 织 成 batch， 然 后 再 提供 给 神经 网 络 的 输入 层 。 
TensorFlow 提供 了 tftrain.batch 和 tf.train.shuffle_ batch 函数 来 将 单个 的 样 例 组 织 成 batch 的 
形式 输出 。 这 两 个 函数 都 会 生成 一 个 队列 ， 队 列 的 入 队 操 作 是 生成 单个 样 例 的 方法 ， 而 每 
次 出 队 得 到 的 是 一 个 batch 的 样 例 。 它 们 唯一 的 区 别 在 于 是 否 会 将 数据 顺序 打 乱 。 以 下 代 
码 展 示 了 这 两 个 函数 的 使 用 方法 。 


import tensorflow as tf 


# 使 用 7.3.2 小 节 中 的 方法 读 取 并 解析 得 到 样 例 。 这 里 假设 Example 结构 中 i 表示 一 个 样 例 的 
# 特征 向 量 ， 比 如 一 张 图 像 的 像素 矩阵 。 而 j 表示 该 样 例 对 应 的 标签 。 
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example, label = features['i'], features['j'] 


# 一 个 batch 中 样 例 的 个 数 。 

batch size = 3 

# 组 合 样 例 的 队列 中 最 多 可 以 存储 的 样 例 个 数 。 这 个 队列 如 果 太 大 ， 那 么 需要 占用 很 多 内 存 资 源 ; 
# 如 果 太 小 ， 那 么 出 队 操 作 可 能 会 因为 没有 数据 而 被 阻碍 《block)， 从 而 导致 训练 效率 降低 。 一 般 
# 来 说 这 个 队列 的 大 小 会 和 每 一 个 batch 的 大 小 相关 ， 下 面 一 行 代码 给 出 了 设置 队列 大 小 的 一 种 
# 方式 。 

capacity = 1000 + 3 * batch size 


# 使 用 tf.train.batch 函数 来 组 合 样 例 。[example，1label] 参 数 给 出 了 需要 组 合 的 元 素 ， 
# 一 般 example 和 1label 分 别 代表 训练 样本 和 这 个 样本 对 应 的 正确 标签 。 batch _size 参数 给 出 
# 了 每 个 batch 中 样 例 的 个 数 。capacity 给 出 了 队列 的 最 大 容量 。 当 队列 长 度 等 于 容量 时 ， 
# TensorFlow 将 暂停 入 队 操 作 ， 而 只 是 等 待 元素 出 队 。 当 元 素 个 数 小 于 容量 时 ，TensorFlow 
# 将 自动 重新 启动 入 队 操 作 。 
example batch, label batch = tf.train.batch!\( 

[example, label], batch size=batch size, capacity=capacity) 


with tf.Session() as sess: 
tf.initialize all variables () .run() 
coord = tf.train.Coordinator () 
threads = tf.train.start queue runners(sess=sess, coord=coord) 


# 获取 并 打印 组 合 之 后 的 样 例 。 在 真实 问题 中 ， 这 个 输出 一 般 会 作为 神经 网 络 的 输入 。 
for i in range (2): 
cur example batch, cur label batch = sess.runl( 
[example batch, label batch] ) 
print cur example batch, cur label batch 


coord.request stop() 
coord.Jjoin (threads) 


运行 上 面 的 程序 可 以 得 到 下 面 的 输出 : 

[LOMOPmIIOTOQ EO 

[LO TL ON 

从 这 个 输出 可 以 看 到 tf.train.batch 函数 可 以 将 单个 的 数据 组 织 成 3 个 一 组 的 batch。 
在 example，label 中 读 到 的 数据 依次 为 : 

example: 0, lable:0 

example: 0, lable:l1 

example: 1, lable:0 


example: 1, lable:l1 
这 是 因为 tf .train.batch 函数 不 会 随机 打 乱 顺序 ， 所 以 组 合 之 后 得 到 的 数据 组 合成 了 上 面 给 出 
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的 输出 。 


iii 


下 面 一 段 代码 展示 了 tfttrain.shuffle batch 函数 的 使 用 方法 。 
# 和 tf.train.batch 的 样 例 代 码 一 样 产生 example 和 Label。 


example, label = features['i'], features[7 17] 


# 使 用 tf ,train.shuffle batch 函数 来 组 合 样 例 。tf.train.shuffle batch 函数 
# 的 参数 大 部 分 都 和 tf.train.batch 函数 相似 ,但 是 min after dequeue 参数 是 
# tf.train.shuffle batch 函数 特有 的 . min after dequeue 参数 限制 了 出 队 时 队列 中 元 
# 素 的 最 少 个 数 。 当 队列 中 元 素 太 少时 ， 随 机 打 乱 样 例 顺 序 的 作用 就 不 大 了 。 所 以 
# tf.train,shuffle batch 函数 提供 了 限制 出 队 时 最 少 元 素 的 个 数 来 保证 随机 打 乱 顺序 的 
# 作用 。 当 出 队 函 数 被 调用 但 是 队列 中 元 素 不 够 时 ， 出 队 操作 将 等 待 更 多 的 元 素 入 队 才 会 完成 。 
# 如 果 min after dequeue 参数 被 设 定 ，capacity 也 应 该 相应 调整 来 满足 性 能 需求 。 
example batchy label batch = tf.train.shuffle batch ( 
[example, label], batch size=batch size, 
capacity=capacity, min after dequeue=30) 


# 和 tf.train.batch 的 样 例 代码 一 样 打 印 example batch, label Patchs 


运行 上 面 的 代码 可 以 得 到 下 面 的 输出 : 
[0 

[1 0 0] [0 0 1 

从 输出 中 可 以 看 到 ， 得 到 的 样 例 顺序 已 经 被 打 乱 了 。 


tf.train.batch 函数 和 给 train.shuffle_batch 函数 除了 可 以 将 单个 训练 数据 整理 成 输入 
batch， 也 提供 了 并 行 化 处 理 输入 数据 的 方法 。tftrain.batch 函数 和 给 train.shuffle_batch 函数 
并 行 化 的 方式 一 致 ， 所 以 在 本 小 节 中 仅 以 应 用 得 更 多 的 tftrain.shuffle_batch 函数 为 例 。 通 
过 设置 tftrain.shuffle batch 函数 中 的 num_threads 参数 , 可 以 指定 多 个 线程 同时 执行 入 队 操 
作 。tftrain.shuffle_ batch 函数 的 入 队 操 作 就 是 数据 读 取 以 及 预 处 理 的 过 程 。 当 num_threads 
参数 大 于 1 时 ， 多 个 线程 会 同时 读 取 一 个 文件 中 的 不 同样 例 并 进行 预 处 理 。 如 果 需 要 多 个 
线程 处 理 不 同文 件 中 的 样 例 时 ， 可 以 使 用 tftrain.shuffle batch join 函数 ”。 此 函数 会 从 输入 
文件 队列 中 获取 不 同 的 文件 分 配给 不 同 的 线程 。 一 般 来 说 ， 输 入 文件 队列 是 通过 7.3.2 中 介 
绍 的 tftrain.string_ input producer 函数 生成 的 。 这 个 函数 会 平均 分 配 文 件 以 保证 不 同文 件 中 
的 数据 会 被 尽量 平均 地 使 用 。 


@ 如 果 不 需 要 随机 打 乱 输入 数据 顺序 ， 可 以 使 用 外 train.batch_join 函数 完成 类 似 功能 。 
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tftrain.shuffle batch 函数 和 tf.train.shuffle batch join 函数 都 可 以 完成 多 线程 并 行 的 方 
式 来 进行 数据 预 处理 ， 但 它们 各 有 优 劣 。 对 于 ttrain.shuffle batch 函数 ， 不 同 线程 会 读 取 
同一 个 文件 。 如 果 一 个 文件 中 的 样 例 比 较 相 似 《〈 比 如 都 属于 同一 个 类 别 )， 那 么 神经 网 络 的 
训练 效果 有 可 能 会 受到 影响 。 所 以 在 使 用 tftrain.shuffle_ batch 函数 时 ， 需 要 尽量 将 同一 个 
TFRecord 文件 中 的 样 例 随机 打 乱 。 而 使 用 给 train.shuffle batch join 函数 时 ， 不 同 线程 会 让 
取 不 同文 件 。 如 果 读 取 数 据 的 线程 数 比 总 文件 数 还 大 ， 那 么 多 个 线程 可 能 会 读 取 同 一 个 文 
件 中 相近 部 分 的 数据 。 而 且 多 个 线程 读 取 多 个 文件 可 能 导致 过 多 的 硬盘 寻 址 ， 从 而 使 得 读 
取 效 率 降 低 。 不同 的 并 行 化 方式 各 有 所 长 ， 有 具体 采用 哪 一 种 方法 需要 根据 具体 情况 来 确定 。 


7.3.4 输入 数据 处 理 框架 


在 前 面 的 小 节 中 己 经 介绍 了 图 7-14 所 展示 的 流程 图 中 的 所 有 步骤 。 在 这 一 小 节 将 把 这 
些 步骤 串 成 一 个 完成 的 TensorFlow 来 处 理 输入 数据 。 以 下 代码 给 出 了 这 个 完成 的 程序 。 


import tensorflow as tf 


# 创建 文件 列表 ， 并 通过 文件 列表 创建 输入 文件 队列 。 在 调用 输入 数据 处 理 流程 前 ， 和 需要 

# 统一 所 有 原始 数据 的 格式 并 将 它们 存储 到 TFRecord 文件 中 。 下 面 给 出 的 文件 列表 应 该 包含 所 
# 有 提供 训练 数据 的 TFRecord 文件 。 

files = tf.train.match filenames once("/path/to/file pattern-*") 
filename queue = tf.train.string input Producez (files, shuffle=False) 


# 使 用 类 似 7.1 节 中 介绍 的 方法 解析 TFRecord 文件 里 的 数据 。 这 里 假设 image 中 存储 的 是 图 像 
# 的 原始 数据 ， Iabel 为 该 样 例 所 对 应 的 标签 height、width 和 channels 给 出 了 图 片 的 维度 。 
reader = tf.TFRecordReader () 
_+: Serialized example = reader.readl(filename queue) 
features = tf.parse single examplel( 
serialized example, 
features=1{ 
'image': tf.FixedLenFeature([], tf.string), 
'Jabel': tf.FixedLenFeature([], tf.int64), 
'height': tf.FixedLenFeature([], tf.int64), 
iwidth': tf.FixedLenFeature([], tf.int64), 
'channels': tf.FixedLenFeature([], tf.int64), 
}) 
image, label = features['image'], features['label'] 
height, width = features['height'], features['width'] 
channels = features['channels'] 
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# 从 原始 图 像 数据 解析 出 像素 矩阵 ， 并 根据 图 像 太 寸 还 原 图 像 。 
decoded image = tf.decode rawl(limage, tf.uint8) 
decoded image.set shape([height, width, channels]) 
# 定义 神经 网 络 输入 层 图 片 的 大 小 。 
image size = 299 
# preprocess for train 为 7.2.2 小 节 中 介绍 的 图 像 预 处 理 程序 。 
distorted image = preprocess for trainl( 

decoded image, image size, image size, None) 


# 将 处 理 后 的 图 像 和 标签 数据 通过 tf.train.shuffle batch 整理 成 神经 网 络 训 练 时 

# 需要 的 batch。 

min after dequeue = 10000 

batch size = 100 

capacity = min after dequeue + 3 * batch size 

image batch, label batch = tf.train.shuffle batch ( 
[distorted image, label], batch size=batch size, 
capacity=capacity, min after dequeue=min after dequeue) 


# 定义 神经 网 络 的 结构 以 及 优化 过 程 。image _ batch 可 以 作为 输入 提供 给 神经 网 络 的 输入 层 。 

# label batch 则 提供 了 输入 batch 中 样 例 的 正确 答案 。 

logit = inference (image batch) 

loss = calc loss(logit, label batch) 

train step = tf.train.GradientDescentOptimizer (learning rate)\ 
.minimize (loss) 


# 声明 会 话 并 运行 神经 网 络 的 优化 过 程 。 
with tf.Session() as sess: 
# 神经 网 络 训 练 准备 工作 。 这 些 工 作 包 括 变量 初始 化 、 线 程 启动 。 
tf.initialize all variables() .zun() 
coord = tf.train.Coordinator () 
threads = tf.train.start queue runners(sess=sess, coord=coord) 


# 神经 网 络 训练 过 程 。 
for i in range (TRAINING ROUDNS): 
sess.runl(train step) 


# 停止 所 有 线程 。 
coord.request Stop () 
Coord.join (threads) 
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7-15 展示 了 以 上 代码 中 输入 数据 处 理 的 整个 流程 。 从 图 7-15 中 可 以 看 出 ， 输 入 数 
据 处 理 的 第 一 步 为 获取 存储 训练 数据 的 文件 列表 。 在 图 7-15 中 ， 这 个 文件 列表 为 {A,B,C}。 
通过 tftrain.string_input_producer 国 数 ， 可 以 选择 性 地 将 文件 列表 中 文件 的 顺序 打 乱 ， 并 加 
入 输入 队列 。 因 为 是 和 否 打 乱 文 件 的 顺序 是 可 选 的 ， 所 以 在 图 中 通过 虚线 表示 。 
tttrain.string inptit producer 国 数 会 生成 并 维护 一 个 输入 文件 队列 ， 不 同 线程 中 的 文件 读 取 
函数 可 以 共享 这 个 输入 文件 队列 。 在 读 取样 例 数据 之 后 ， 需 要 将 图 像 进行 预 处 理 。 图 像 预 
处 理 的 过 程 也 会 通过 tftrain.shuffle_batch 提供 的 机 制 并 行 地 跑 在 多 个 线程 中 。 输 入 数据 处 
理 流 程 的 最 后 通过 tftrain,shuffle batch 函数 将 处 理 好 的 单个 输入 样 例 整 理 成 batch 提供 给 神 
经 网 络 的 输入 层 。 通 过 这 种 方式 ， 可 以 有 效 地 提高 数据 预 处理 的 效率 ， 避 免 数 据 预 处 理 成 
为 神经 网 络 模型 训练 过 程 中 的 性 能 瓶颈 。 


输入 文件 出 下 奖 入 文件 队列 样 例 组 会 队列 


i 收据 机 A ~ batehi 


: batch2 


— i —— 





e batch 
图 7-15 输入 数据 处 理 流程 示意 图 


小 结 


本 章 通过 图 像 数 据 预 处 理 的 流程 ,介绍 了 TensorFlow 使 用 多 线程 处 理 输入 数据 的 框架 。 
虽然 本 章 以 图 像 数 据 处 理 为 例 ， 但 读者 可 以 很 容易 将 该 框架 移植 到 其 他 类 型 的 数据 预 处 理 
上 。 根 据 输入 数据 处 理 的 步骤 ， 在 本 章 的 三 节 中 分 别 介绍 了 TensorFlow 推荐 的 输入 数据 格 
式 、 图 像 预 处 理 算法 和 输入 数据 处 理 的 框架 。 首 先 在 7.1 节 中 介绍 了 如 何 通 过 TensorFlow 
提供 的 TFRecord 格式 来 统一 不 同 格式 的 输入 数据 .这 一 节 给 出 了 样 例 程序 将 原始 的 输入 数 
据 转 化 为 Example Protocol Buffer， 并 存储 到 TFRecord 文件 中 ， 也 给 出 了 有 具体 代码 从 
TFRecord 文件 中 读 取 数据 。 


197 


ww albbt.com DODODDDDOD 





TensorFlow: 实战 Google 深度 学 习 框 架 


接着 7.2 节 介 绍 了 TensorFlow 中 主要 的 图 像 处 理 函 数 ， 并 给 出 了 一 个 完整 的 图 像 预 处 
理 过 程 。TensorFlow 提供 了 图 像 解码 、 图 像 大 小 调整 、 图 像 旋 转 、 图 像 色 彩 调 整 和 图 像 标 
注 框 处 理 等 方法 。 根 据 具 体 问 题 ， 可 以 采用 其 中 的 部 分 方法 来 弱化 与 此 问题 无 天 的 因素 。 
比如 对 于 数字 手写 体 识别 问题 ， 图 像 的 颜色 、 亮 度 等 与 识别 的 结果 无 关 ， 所 以 可 以 通过 7.2 
节 中 介绍 的 方法 来 弱化 这 些 因 素 对 最 终 分 析 结 果 的 影响 。 

最 后 7.3 节 介 绍 了 TensorFlow 提供 的 多 线程 数据 预 处 理 流程 .这 一 节 讲 解 了 TensorFlow 
通过 队列 实现 多 线程 的 机 制 ， 并 介绍 了 TensorFlow 提供 的 函数 来 进一步 支持 并 行 化 的 处 理 
输入 数据 。 在 这 一 节 中 还 给 出 了 一 个 完整 的 数据 预 处 理 流程 图 和 TensorFlow 程序 框架 。 
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第 6 章 中 讲解 了 卷 积 神经 网 络 的 网 络 结构 ， 并 介绍 了 如 何 使 用 卷 积 神 经 网 络 解决 图 像 
识别 问题 。 本 章 中 将 介绍 男 外 一 种 常用 的 神经 网 络 结构 一 一 循环 神经 网 络 {recurrent neural 
network，RNN) 以 及 循环 神经 网 络 中 的 一 个 重要 结构 一 一 长 短 时 记忆 网 络 (long short-term 
meimory LSTM)。 本 章 也 将 介绍 循环 神经 网 络 在 自然 语言 处 理 (natural language processing， 
NLP) 问题 以 及 时 序 分 析 问 题 中 的 应 用 ， 并 给 出 具体 的 TensorFlow 程序 来 解决 一 些 经 典 的 
问题 。 

首先 在 8.1 节 将 介绍 循环 神经 网 络 的 基本 知识 并 通过 机 器 翻译 问题 说 明 循 环 神经 网 络 
是 如 何 被 应 用 的 。 这 一 节 中 将 给 出 一 个 有 具体 的 样 例 来 说 明 一 个 最 简单 的 循环 神经 网 络 的 前 
癌 传 播 时 是 如 何 工作 的 。 然 后 在 8.2 节 中 将 介绍 循环 神经 网 络 中 最 重要 的 结构 一 一 长 短 时 
记忆 网 络 (long short term memory; LSTM) 的 网 络 结构 。 在 这 一 节 中 将 大 致 介绍 LSTM 结 
构 中 的 主要 元 素 , 并 给 出 具体 的 TensorFlow 程序 来 实现 一 个 使 用 了 LSTM 结构 的 循环 神经 
网 络 。 接 着 在 8.3 节 中 将 介绍 一 些 常用 的 循环 神经 网 络 的 变种 。 最 后 在 8.4 节 中 将 结合 
TensorFlow 对 这 些 网 络 结构 的 支持 ， 通 过 两 个 经 典 的 循环 神经 网 络 模型 的 应 用 案例 ， 介 绍 
如 何 针对 语言 模型 和 时 序 预 测 两 个 问题 ， 设 计 和 使 用 循环 神经 网 络 。 











8.1 ”循环 神经 网 络 简介 

循环 神经 网 络 ‘recurrent neural network，RNN) 源 目 于 1982 年 由 Saratha Sathasivam 
提出 的 霍 普 菲尔德 网 络 2。 霍 普 菲 尔 德 网 络 因为 实现 困难 , 在 其 提出 时 并 且 没 有 被 合适 地 应 
用 。 该 网 络 结构 也 于 1986 年 后 被 全 连接 神经 网 络 以 及 一 些 传统 的 机 器 学 习 算 法 所 取代 。 然 


@ 本 节 内 容 部 分 参考 了 资料 http://colah.github,io/posts/2015-08-Understanding-LSTMs/。 
加 参见 : Sathasivam S. Logic Learning in Hopfield Networks [J]. Modern Applied Science, 2009. 
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而 , 传统 的 机 器 学 习 算 法 非常 依赖 于 人 工 提取 的 特征 , 使 得 基于 传统 机 器 学 习 的 图 像 识 别 、 
语音 识别 以 及 自然 语言 处 理 等 问题 存在 特征 提取 的 瓶颈 。 而 基于 全 连接 神经 网 络 的 方法 也 
存在 参数 太 多 、 无 法 利用 数据 中 时 间 序 列 信息 等 问题 。 随 着 更 加 有 效 的 循环 神经 网 络 结构 
被 不 断 提 出 ， 循 环 神经 网 络 挖掘 数据 中 的 时 序 信 息 以 及 语义 信息 的 深度 表达 能 力 被 充分 利 
用 ， 并 在 语音 识别 、 语 言 模型 、 机 器 翻译 以 及 时 序 分 析 等 方面 实现 了 突破 。 

循环 神经 网 络 的 主要 用 途 是 处 理 和 预测 序列 数据 。 在 之 前 介绍 的 全 连接 神经 网 络 或 卷 
积 神经 网 络 模型 中 ， 网 络 结构 都 是 从 输入 层 到 隐 含 层 再 到 输出 层 ， 层 与 层 之 间 是 全 连接 或 
部 分 连接 的 ， 但 每 层 之 间 的 节点 是 无 连接 的 。 考 虑 这 样 一 个 问题 ， 如 果 要 预测 句子 的 下 一 
个 单词 是 什么 ,一般 需要 用 到 当前 单词 以 及 前 面 的 单词 ， 因 为 各 子 中 前 后 单词 并 不 是 独立 
的 。 比 如 ， 当 前 单词 是 “很 ”前 一 个 单词 是 “天 空 ”"， 那 么 下 一 个 单词 很 大 概率 是 “ 蓝 ”。 
循环 神经 网 络 的 来 源 就 是 为 了 刻画 一 个 序列 当前 的 输出 与 之 前 信息 的 关系 。 从 网 络 结构 上 ， 
循环 神经 网 络 会 记忆 之 前 的 信息 ， 并 利用 之 前 的 信息 影响 后 面 结 点 的 输出 。 也 就 是 说 ， 循 
环 神 经 网 络 的 隐藏 层 之 间 的 结 点 是 有 连接 的 ， 隐 藏 层 的 输入 不 仅 包 括 输 入 层 的 输出 ;还 包 
括 上 一 时 刻 隐 藏 层 的 输出 。 

图 8-1 展示 了 一 个 典型 的 循环 神经 网 络 。 对 于 循环 神经 网 络 ， 一 个 非常 重要 的 概念 就 
是 时 刻 。 循 环 神经 网 络 会 对 于 每 一 个 时 刻 的 输入 结合 当前 模型 的 状态 给 出 一 个 输出 。 从 
图 8-1 中 可 以 看 到 ， 循 环 神经 网 络 的 主体 结构 A 的 输入 除了 来 自 输入 层 各 ， 还 有 一 个 循环 
的 边 来 提供 当前 时 刻 的 状态 。 在 每 一 个 时 刻 ， 循 环 神经 网 络 的 模块 A 会 读 取 +t 时刻 的 输入 
XX， 并 输出 一 个 值 h.。 同 时 A 的 状态 会 从 当前 步 传递 到 下 一 步 。 因 此 ， 循 环 和 神经 网 络 理论 
上 可 以 被 看 作 是 同一 神经 网 络 结构 被 无 限 复制 的 结果 。 但 出 于 优化 的 考虑 ， 目 前 循环 神经 
网 络 无 法 做 到 真正 的 无 限 循环 ， 所 以 ， 现 实 中 一 般 会 将 循环 体 展开 ， 于 是 可 以 得 到 图 8-2 


所 展示 的 结构 。 


人 


图 8-1 循环 神经 网 络 经 典 结构 示意 图 


中 本 章 藉 于 循环 神经 网 络 的 介绍 图 片 部 分 来 自 资 料 http:/eolah.github.io/posts/2015-08-Understanding- LSTMSs/， 
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在 图 8-2 中 可 以 更 加 清楚 的 看 到 循环 神经 网 络 在 每 一 个 时 刻 会 有 一 个 输入 总 ， 然 后 根 
据 循 环 神经 网 络 当前 的 状态 4, 提 供 一 个 输出 疡 。 而 循环 神经 网 络 当前 的 状态 省 是 根据 上 一 
时 刻 的 状态 4 和 当前 的 输入 万 共同 决定 的 。 从 循环 神经 网 络 的 结构 特征 可 以 很 容易 得 出 
它 最 擅长 解决 的 问题 是 与 时 间 序 列 相 关 的 。 循 环 神经 网 络 也 是 处 理 这 基 问 题 时 最 自然 的 神 
经 网 络 结构 。 对 于 一 个 序列 数据 ， 可 以 将 这 个 序列 上 不 同时 刻 的 数据 依次 传 入 循环 神经 网 
络 的 输入 层 ， 而 输出 可 以 是 对 序列 中 下 一 个 时 刻 的 预测 ， 也 可 以 是 对 当前 时 刻 信 息 的 处 理 
结果 《比如 语音 识别 结果 )。 循 环 神经 网 络 要 求 每 一 个 时 刻 都 有 一 个 输入 ， 但 是 不 一 定 每 个 
时 刻 都 需要 有 输出 。 在 过 去 几 年 中 , 循环 神经 网 络 已 经 被 广泛 地 应 用 在 语音 识别 、 语 言 模型 、 
机 器 翻译 以 及 时 序 分 析 等 问题 上 ， 并 取得 了 巨大 的 成 功 。 





图 8-2 ”循环 神经 网 络 按时 间 展 开 后 的 结构 


以 机 器 翻译 为 例 来 介绍 循环 神经 网 络 是 如 何 解决 实际 问题 的 。 循 环 神经 网 络 中 每 一 个 
时 刻 的 输入 为 需要 翻译 的 句子 中 的 单词 。 如 图 8-3 所 示 ， 需 要 翻译 的 句子 为 ABCD， 那 么 
循环 神经 网 络 第 一 段 每 一 个 时 刻 的 输入 就 分 别 是 A、B、C 和 D， 然 后 用 “_ ”作为 待 翻译 
句子 的 结束 符 。 在 第 一 段 中 ， 循 环 神经 网 络 没 有 输出 。 从 结束 符 “ ”开始 ， 循 环 神经 网 络 
进入 翻译 阶段 。 该 阶段 中 每 一 个 时 刻 的 输入 是 上 一 个 时 刻 的 输出 ， 而 最 终 得 到 的 输出 就 是 
句子 ABCD 翻译 的 结果 。 从 图 8-3 中 可 以 看 到 句子 ABCD 对 应 的 翻译 结果 就 是 XYZ, 而 Q 
是 代表 翻译 结束 的 结束 符 。 


®@ © © € 
ieee | 
® © © © © ®@ © & 


图 83 ”循环 神经 网 络 实现 序列 预测 示意 图 
如 之 前 所 介绍 ， 循 环 神经 网 络 可 以 被 看 做 是 同一 神经 网 络 结构 在 时 间 序列 上 被 复制 多 
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钦 的 结果 ， 这 个 被 复制 多 次 的 结构 被 称 之 为 循环 体 。 如 何 设计 循环 体 的 网 络 结构 是 箱 环 什 
经 网 络 解 决 实际 问题 的 关键 。 和 卷 积 神经 网 络 过 滤器 中 参数 是 共享 的 类 似 ， 在 循环 神经 网 
络 中 ， 循 环 体 网 络 结构 中 的 参数 在 不 同时 刻 也 是 共享 的 。 

8-4 展示 了 一 个 使 用 最 简单 的 循环 体 结 构 的 循环 神经 网 络 ， 在 这 个 循环 体 中 只 使 用 
了 一 个 类 似 全 连接 层 的 神经 网 络 结构 。 下 面 将 通过 图 8-4 中 所 展示 的 神经 网 络 来 介绍 循环 
神经 网 络 前 向 传播 的 完整 流程 。 循 环 神经 网 络 中 的 状态 是 通过 一 个 向 量 来 表示 的 ， 这 个 癌 
量 的 维度 也 称 为 循环 神经 网 络 隐藏 层 的 大 小 ， 假设 其 为 h。 从 图 8-4 中 可 以 看 出 ， 循 环 体 中 
的 神经 网 络 的 输入 有 两 部 分 , 一 部 分 为 上 一 时 刻 的 状态 , 另 一 部 分 为 当前 时 刻 的 输入 样本 。 
对 于 时 间 序 列 数 据 来 说 (比如 不 同时 刻 商 品 的 销量 ), 每 一 时 刻 的 输入 样 例 可 以 是 当前 时 刻 
的 数值 (比如 销量 值 ); 对 于 语言 模型 来 说 , 输入 样 例 可 以 是 当前 单词 对 应 的 单词 问 量 (word 


embedding) 2 。 





图 8-4 ”使 用 单 层 全 连接 神经 网 络 作为 循环 体 的 循环 神经 网 络 结构 图 


假设 输入 向 量 的 维度 为 x, 那么 图 8-4 中 循环 体 的 全 连接 层 神经 网 络 的 输入 大 小 为 htx。 
也 就 是 将 上 一 时 刻 的 状态 与 当前 时 刻 的 输入 拼接 成 一 个 大 的 向 量 作为 循环 体 中 神经 网 络 的 
输入 ”。 因 为 该 神经 网 络 的 输出 为 当前 时 刻 的 状态 ， 于 是 输出 层 的 节点 个 数 也 为 h， 循环 体 


人 @ 关于 单词 向 量 的 简单 介绍 可 参考 第 1 章 1.3 节 。 

回 关于 单词 向 量 更 加 详细 的 介绍 可 以 参考 论文 : Mikolov T Sutskever I Chen K, et al, Distributed 
Representations of Words and Phrases and their Compositionality[]]. Advances in Neural Information 
Processing Systems, 2013, 26:3111-3119. 

@@ 图 中 中 间 标 有 tanh 的 小 方 框 表示 一 个 使 用 了 tanh 作为 激活 函数 的 全 连接 神经 网 络 。 

四 也 有 资料 中 将 会 将 上 一 时 刻 状态 对 应 的 权重 和 当前 时 刻 输入 对 应 的 权重 特意 分 开 ， 但 它们 的 实质 是 一 
样 的 。 本 节 展 示 样 例 中 为 了 方便 显示 ， 采 用 了 向 量 拼接 的 方式 ; 在 本 节 的 代码 中 为 了 方便 代码 编写 ， 
采用 了 分 开 的 方式 。 
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中 的 参数 个 数 为 (h+x)xh+h 个 。 从 图 8-4 中 可 以 看 到 , 循环 体 中 的 神经 网 络 输出 不 但 提供 给 
了 下 一 时 刻 作 为 状态 ， 同 时 也 会 提供 给 当前 时 刻 的 输出 。 为 了 将 当前 时 刻 的 状态 转化 为 最 
终 的 输出 ， 循 环 神经 网 络 还 需要 另外 一 个 全 连接 神经 网 络 来 完成 这 个 过 程 。 这 和 卷 积 神经 
网 络 中 最 后 的 全 连接 层 的 意义 是 一 样 的。 类 似 的 ， 不 同时 刻 用 于 输出 的 全 连接 神经 网 络 中 
的 参数 也 是 一 致 的 。 为 了 让 读者 对 循环 神经 网 络 的 前 向 传播 有 一 个 更 加 直观 的 认识 , 图 8-5 
展示 了 一 个 循环 神经 网 络 前 向 传播 的 具体 计算 过 程 。 





图 8-5 ”循环 神经 网 络 的 前 向 传播 的 计算 过 程 示意 图 


在 图 8-5 中 ， 假 设 状态 的 维度 为 2， 输入、 输出 的 维度 都 为 1， 而 且 循环 体 中 的 全 连接 
层 中 权重 为 ; 
0.1 0.2 
0.3 0.4 


0.5 0.6 
偏 置 项 的 大 小 为 bn =[0.1,-0.1] ， 用 于 输出 的 全 连接 层 权 重 为 : 


1.0 
Wourpur = 7 0 


偏 置 项 大 小 为 bywpw =0.1。 那 么 在 时 刻 加， 因为 没有 上 一 时 刻 ， 所 以 将 状态 初始 化 为 


Wrin 三 
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[0,0]， 而 当前 的 输入 为 1， 所 以 拼接 得 到 的 向 量 为 [0,0,1]， 通 过 循环 体 中 的 全 连接 层 神 经 
络 得 到 的 结果 为 : 
0.1 0.2 
tanh| [0,0,1]x| 0.3 0.4|+[0.1,-0.1] |=tanh([0.6,0.5])=[0.537,0.462] 
0.5 0.6 


这 个 结果 将 作为 下 一 时 刻 的 输入 状态 ， 同时 循环 神经 网 络 也 会 使 用 该 状态 生成 输出 。 
将 该 向 量 作为 输入 提供 给 用 于 输出 的 全 连接 神经 网 络 可 以 得 到 如 时 刻 的 最 终 输出 : 


1.0 
[0.537,0.462|x | | +0.1=1.56 


使 用 th 时 刻 的 状态 可 以 类 似 地 推导 得 出 ti 时刻 的 状态 为 [0.860，0.884]， 而 时 刻 的 输 
出 为 2.73。 在 得 到 循环 神经 网 络 的 前 向 传播 结果 之 后 ， 可 以 和 其 他 神经 网 络 类 似 地 定义 损 
失 函 数 。 循 环 神经 网 络 唯一 的 区 别 在 于 因为 它 每 个 时 刻 都 有 一 个 输出 ， 所 以 循环 神经 网 络 
的 总 损失 为 所 有 时 刻 〈 或 者 部 分 时 刻 ) 上 的 损失 函数 的 总 和 。 以 下 代码 实现 了 这 个 简单 的 
循环 神经 网 络 前 同 传播 的 过 程 。 


import numpy as np 


X = [1, 2] 

state = [0.0, 0.0] 

# 分 开 定义 不 同 输入 部 分 的 权重 以 方便 操作 。 

时 CEB UL 专区 可 七 后 二 np.asarray([[0.1, 0.2], [0.3, 0.4]]) 
Ww cell input = np.asarray ([0.5, 0.6]) 

b cell = np.asarray([0.1, -0.1]) 


# 定义 用 于 输出 的 全 连接 层 参数 。 
Ww output = np.asarray([[1.0], [2.0]]) 
b output = 0.1 


# 按照 时 间 顺 序 执行 循环 神经 网 络 的 前 向 传播 过 程 。 
for i in range(Ien(X) ) : “4 
# 计算 循环 体 中 的 全 连接 层 神经 网 络 。 
before activation = np.dot(state, w cell state) + 
xLile woelie np tb cell 
state = np.tanhl(before activation) 


# 根据 当前 时 刻 状态 计算 最 终 输 出 。 


final output = np.dot (state, w output) + b_ output 


# 输出 每 个 时 刻 的 信息 。 


print "before activation: ", before activation 
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print "state: ", state 
print "output: ", final output 


运行 以 上 程序 可 以 得 到 输出 : 

before activation: [ 0.6 0.5] 

state: [ 0.53704957 0.46211716] 

output: [ 1.56128388] 

before activation: [ 1.2923401 1.39225678] 

state: [ 0.85973818 0.88366641] 

output: [ 2.72707101] 

该 输出 和 图 8-5 中 的 数字 是 一 致 的 。 

和 其 他 神经 网 络 类 似 ， 在 定义 完 损失 函数 之 后 ， 套 用 第 4 章 中 介绍 的 优化 框架 
TensorFlow 就 可 以 自动 完成 模型 训练 的 过 程 。 这 里 唯一 需要 特别 指出 的 是 ， 理 论 上 循环 神 
经 网 络 可 以 文 持 任 意 长 度 的 序列 ， 然 而 在 实际 中 ， 如 果 序 列 过 长 会 导致 优化 时 出 现 梯 度 消 
散 的 问题 (the vanishing gradient problem)“， 所 以 实际 中 一 般 会 规定 一 个 最 大 长 度 ， 当 序 
列 长 度 超过 规定 长 度 之 后 会 对 序列 进行 截断 。 


8.2 ”长短 时 记忆 网 络 〈LTSM) 结构 


循环 神经 网 络 工作 的 关键 点 就 是 使 用 历史 的 信息 来 帮助 当前 的 决策 。 例 如 使 用 之 前 出 
现 的 单词 来 加 强 对 当前 文字 的 理解 。 循 环 神经 网 络 可 以 更 好 地 利用 传统 神经 网 络 结构 所 不 
能 建 模 的 信息 , 但 同时 , 这 也 带 来 了 更 大 的 技术 挑战 一 一 长 期 依赖 (long-term dependencies ) 
问题 。 

在 有 些 问题 中 ， 模 型 仅仅 需要 短期 内 的 信息 来 执行 当前 的 任务 。 比 如 预测 短语 “大 海 
的 颜色 是 蓝 色 ”中 的 最 后 一 个 单词 “ 蓝 色 ”时 ， 模 型 并 不 需要 记忆 这 个 短语 之 前 更 长 的 上 
下 文 信息 一 一 因为 这 一 句 话 已 经 包含 了 足够 的 信息 来 预测 最 后 一 个 词 。 在 这 样 的 场景 中 ， 
相关 的 信息 和 符 预 测 的 词 的 位 置 之 间 的 间隔 很 小 ， 循 环 神经 网 络 可 以 比较 容易 地 利用 先前 
信息 。 

但 同样 也 会 有 一 些 上 下 文 场景 更 加 复杂 的 情况 。 比 如 当 模 型 试 着 去 预测 段落 “ 某 地 开 
设 了 大 量 工 厂 ， 空 气 污染 十 分 严重 …… 这 里 的 天 空 都 是 灰色 的 ”的 最 后 一 个 单词 时 ， 仅 仅 


Q 参见: Gustavsson A, Magnuson A，Blomberg B, et al. On the difficulty of training Recurrent Neural 
Networks[J]. Computer Science, 2013. 
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根据 短期 依赖 就 无 法 很 好 的 解决 这 种 问题 。 因为 只 根据 最 后 一 小 段 , 最 后 一 个 词 可 以 是 “ 蓝 
色 的 ”或 者 “灰色 的 ”。 但 如 果 模 型 需要 预测 清楚 具体 是 什么 颜色 ， 就 需要 考虑 先前 提 到 但 
离 当 前 位 置 较 远 的 上 下 文 信息 。 因 此 ， 当 前 预测 位 置 和 相关 信息 之 间 的 文本 间隔 就 有 可 能 
变 得 很 大 。 当 这 个 间隔 不 断 增 大 时 ， 类 似 图 8-4 中 给 出 的 简单 循环 神经 网 络 有 可 能 会 丧失 
学 习 到 距离 如 此 远 的 信息 的 能 力 。 或 者 在 复杂 语言 场景 中 ， 有 用 信息 的 间隔 有 大 有 小 、 长 
短 不 一 ， 循 环 神经 网 络 的 性 能 也 会 受到 限制 。 

长 短 时 记忆 网 络 (long short term memory LSTM) 的 设计 就 是 为 了 解决 这 个 问题 ， 而 
循环 神经 网 络 被 成 功 应 用 的 关键 就 是 LSTM。 在 很 多 的 任务 上 ， 采 用 LSTM 结构 的 循环 神 
经 网 络 比 标准 的 循环 神经 网 络 表 现 更 好 。 在 下 文中 将 重点 介绍 LSTM 结构 。LSTM 结构 是 
由 Sepp Hochreiter 和 Jiirgen Schmidhuber* 于 1997 年 提出 的 ， 它 是 一 种 特殊 的 循环 体 结构 。 
如 图 8-6 所 示 ， 与 单一 tanh 循环 体 结构 不 同 ，LSTM 是 一 种 拥有 三 个 “ 门 ”结构 的 特殊 网 
络 结构 。 





图 8-6 LSTM 单元 结构 示意 图 


LSTM 靠 一 些 “ 门 ”的 结构 让 信息 有 选择 性 地 影响 循环 神经 网 络 中 每 个 时 刻 的 状态 。 
所 谓 “ 门 ”的 结构 就 是 一 个 使 用 sigmoid 神经 网 络 和 一 个 按 位 做 乘法 的 操作 ， 这 两 个 操作 
合 在 一 起 就 是 一 个 “ 门 ” 的 结构 。 之 所 以 该 结构 叫做 “ 门 ” 是 因为 使 用 sigmoid 作为 激活 
函数 的 全 连接 神经 网 络 层 会 输出 一 个 0 到 1 之 间 的 数值 ， 描 述 当前 输入 有 多 少 信息 量 可 以 
通过 这 个 结构 。 于 是 这 个 结构 的 功能 就 类 似 于 一 肩 门 ， 当 门 打 开 时 (sigmoid 神经 网 络 层 输 


Q) Sepp Hochreiter Jiirgen Schmidhuber. Long short-term memory[]]. Neural Computation. 9 (8): 1735~]1780,1997. 
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出 为 1 时 )， 全 部 信息 都 可 以 通过 ; 当 门 关上 时 (sigmoid 神经 网 络 层 输出 为 0 时 )， 任 何 信 
息 都 无 法 通过 。 本 节 下 面 的 篇 幅 将 介绍 每 一 个 “ 门 ” 是 如 何 工作 的 。 

为 了 使 循环 神经 网 更 有 效 的 保存 长 期 记忆 ， 图 8-6 中 “ 遗 筷 门 ” 和 “输入 门 ” 至 关 重 
要 ， 它 们 是 LSTM 结构 的 核心 。" 遗 态 门 ”的 作用 是 让 循环 神经 网 络 “ 息 记 ” 之 前 没有 用 
的 信息 。 比 如 一 段 文 章 中 先 介 绍 了 某 地 原来 是 绿 水 蓝天 ， 但 后 来 被 污染 了 。 于 是 在 看 到 被 
污染 了 之 后 ， 循 环 神经 网 络 应 该 “ 瑟 记 ”之 前 绿 水 蓝天 的 状态 。 这 个 工作 是 通过 “遗忘 门 ” 
来 完成 的 “遗忘 门 ”会 根据 当前 的 输入 x,、 上 一 时 刻 状态 oc/ 和 上 一 时 刻 输 出 有.j 共同 决定 
哪 一 部 分 记忆 和 需要 被 遗 筷 。 在 循环 神经 网 络 “ 瑟 记 ” 了 部 分 之 前 的 状态 后 ， 它 还 需要 从 当 
前 的 输入 补充 最 新 的 记忆 。 这 个 过 程 就 是 “输入 门 ” 完 成 的 。 如 图 8-6 所 示 ,“ 输 入 门 ” 会 
根据 x%、cij 和 有. 决定 哪些 部 分 将 进入 当前 时 刻 的 状态 ce。 比如 当 看 到 文章 中 提 到 环境 被 
污染 之 后 ， 模 型 需要 将 这 个 信息 写 入 新 的 状态 。 通 过 “ 遗 筷 门 ” 和 “输入 门 ?”，LSTM 结构 
可 以 更 加 有 效 的 决定 哪些 信息 应 该 被 选 筷 ， 哪 些 信 息 应 该 得 到 保留 。 

LSTM 结构 在 计算 得 到 新 的 状态 c 后 需要 产生 当前 时 刻 的 输出 ， 这 个 过 程 是 通过 “ 输 
出 门 ” 完 成 的 。“ 输 出 门 ” 会 根据 最 新 的 状态 cc、 上 一 时 刻 的 输出 Ai 和 当前 的 输入 五 来 次 
定 该 时 刻 的 输出 及 。 比 如 当前 的 状态 为 被 污染 ， 那 么 “天 空 的 颜色 ”后 面 的 单词 很 可 能 
是 “灰色 的 ”。 

相 比 图 8-4 中 展示 的 循环 神经 网 络 ， 使 用 LSTM 结构 的 循环 神经 网 络 的 前 向 传播 是 一 
个 相对 比较 复杂 的 过 程 。 具 体 LSTM 每 个 “ 门 ” 中 的 公式 可 以 参考 论文 Zong short-term 
memory， 本 节 不 再 著述 。 在 TensorFlow 中 ，LSTM 结构 可 以 被 很 简单 地 实现 。 以 下 代码 展 
示 了 在 TensorFlow 中 实现 使 用 LSTM 结构 的 循环 神经 网 络 的 前 向 传播 过 程 。 

# 定义 一 个 LSTM 结构 。 在 TensorFlow 中 通过 一 名 简单 的 命令 就 可 以 实现 一 个 完整 LSTM 结构 。 


# LSTM 中 使 用 的 变量 也 会 在 该 函数 中 自动 被 声明 。 
lstm = rnn cell.BasicLSTMCell (lstm hidden size) 


# 将 LSTM 中 的 状态 初始 化 为 全 0 数组 。 和 其 他 神经 网 络 类 似 ， 在 优化 循环 神经 网 络 时 ， 每 次 也 
# 会 使 用 一 个 batch 的 训练 样本 。 以 下 代码 中 ，batch size 给 出 了 一 个 batch 的 大 小 。 
# BasicLSTMCell 类 提供 了 zero state 函数 来 生成 全 领 的 初始 状态 。 


state = lstm:zero state(batch size, tf.float32) 


# 定义 损失 函数 。 
loss = ,0.0 
# 在 8.1 节 中 介绍 过 ， 虽然 理论 上 循环 神经 网 络 可 以 处 理 任意 长 度 的 序列 ， 但 是 在 训练 时 为 了 
# 避免 梯度 消散 的 问题 ， 会 规定 一 个 最 大 的 序列 长 度 。 在 以 下 代码 中 ,用 num steps 
# 来 表示 这 个 长 度 。 
for i in range (num steps): 
# 在 第 一 个 时 刻 声明 LSTM 结构 中 使 用 的 变量 ， 在 之 后 的 时 刻 都 需要 复 用 之 前 定义 好 的 变量 。 


IE 1 > 0: tf.get variable scope().reuse variables |) 


| 207 


ww ai bbt.com DODOU0UDDDOD 





TensorFlow: 实战 Google 深度 学 习 框 架 


# 每 一 步 处 理 时 间 序 列 中 的 一 个 时 刻 。 将 当前 输入 (current input》 和 前 一 时 刻 状态 

# (state) 传 入 定义 的 LSTM 结构 可 以 得 到 当前 LSTM 结构 的 输出 stm output 和 更 新 后 
# 的 状态 state。 

lstm output, state = lstm(current input, state) 

# 将 当前 时 刻 工 STM 结构 的 输出 传 入 一 个 全 连接 层 得 到 最 后 的 输出 。 

final output = fully connectedl(lstm output) 

# 计算 当前 时 刻 输 出 的 损失 。 


loss += Calc loss(final output, expected output) 
# 使 用 类 似 第 4 章 中 介绍 的 方法 训练 模型 。 


通过 上 面 这 段 代 码 看 到 , 通过 TensorFlow 可 以 非常 方便 地 实现 使 用 LSTM 结构 的 循环 
神经 网 络 ， 而 且 并 不 需要 用 户 对 LSTM 内 部 结构 有 深入 的 了 解 。 


8.3 ”循环 神经 网 络 的 变种 


在 以 上 几 节 中 已 经 完整 地 介绍 了 使 用 LSTM 结构 的 循环 神经 网 络 。 这 一 节 将 再 介绍 循 
环 神经 网 络 的 几 个 常用 变种 以 及 它们 所 解决 的 问题 ， 同 时 也 会 给 出 如 何 使 用 TensorFlow 来 


8.3.1 双 问 循环 神经 网 络 和 座 层 循环 神经 网 络 


在 经 典 的 循环 神经 网 络 中 ， 状 态 的 传输 是 从 前 往 后 单 风 的 。 然 而 ， 在 有 些 问题 中 ， 当 
前 时 刻 的 输出 不 仅 和 之 前 的 状态 有 关系 ， 也 和 之 后 的 状态 相关 。 这 时 就 需要 使 用 双向 循环 
神经 网 络 (bidirectional RNN) 来 解决 这 类 问题 。 例 如 预测 一 个 语句 中 缺失 的 单词 不 仅 需要 
根据 前 文 来 判断 ， 也 需要 根据 后 面 的 内 容 ， 这 时 双向 循环 网 络 就 可 以 发 挥 它 的 作用 。 双 同 
循环 神经 网 络 是 由 两 个 循环 神经 网 络 上 下 合 加 在 一 起 组 成 的 。 输 出 由 这 两 个 循环 神经 网 络 
的 状态 共同 决定 。 图 8-7 展示 了 一 个 双向 循环 神经 网 络 的 结构 图 。 

从 图 8-7 中 可 以 看 到 ， 双 向 循环 神经 网 络 的 主体 结构 就 是 两 个 单 向 循环 神经 网 络 的 结 
合 。 在 每 一 个 时 刻 1， 输 入 会 同时 提供 给 这 两 个 方向 相反 的 循环 神经 网 络 ， 而 输出 则 是 由 这 
两 个 单 向 循环 神经 网 络 共 同 决定 。 双 向 循环 神经 网 络 的 前 向 传播 过 程 和 单 向 的 循环 神经 网 
络 十 分 类 似 ， 这 里 就 不 再 鳌 述 。 更 多 关于 双向 神经 网 络 的 介绍 可 以 参考 Mike Schuster 和 
Kuldip KK. Paliwal 发 表 的 论文 Bidirectional recurrent neural 7zehvOrks 。 


人 schuster M, Paliwal K K. Bidirectional recurrent neural networks[]]. IEEE Transactions on Signal Processing, 1997. 
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8-7 ”双向 循环 神经 网 络 结构 示意 图 


深层 循环 神经 网 络 (deepRNN) 是 循环 神经 网 络 的 另外 一 种 变种 。 为 了 增强 模型 的 表 
达能 力 ， 可 以 将 每 一 个 时 刻 上 的 循环 体重 复 多 次 。 图 8-8 给 出 了 深层 循环 神经 网 络 的 结构 
示意 图 。 从 图 8-8 中 可 以 看 到 ,， 相 比 8.1 节 中 介绍 的 循环 神经 网 络 ， 深 层 循 环 神经 网 络 在 每 
一 个 时 刻 上 将 循环 体 结构 复制 了 多 次 。 和 卷 积 神经 网 络 类 似 , 每 一 层 的 循环 体 中 参数 是 一 致 
的 ， 而 不 同 层 中 的 参数 可 以 不 同 。 为 了 更 好 地 支持 深层 循环 神经 网 络 ，TensorFlow 中 提供 了 
MultiRNNCell 类 来 实现 深层 循环 神经 网 络 的 前 向 传播 过 程 。 以 下 代码 展示 如 何 使 用 这 个 类 。 


四 局 (hy 


TT 





8-8 ”深层 循环 神经 网 络 结构 示意 图 
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# 定义 个 一 个 基本 的 LSTM 结构 作为 循环 体 的 基础 结构 。 深 层 循 环 神经 网 络 也 支持 使 用 其 他 的 循环 
# 体 结 。 

lstm = rnn cell.BasicLSTMCell(lstm size) 

# 通过 MultiRNNCell 类 实现 深层 循环 神经 网 络 中 每 一 个 时 刻 的 前 向 传播 过 程 。 其 中 

# number of 1ayers 表示 了 有 多 少 层 ， 也 就 是 图 8-16 中 从 元 到 用 需要 经 过 多 少 个 LSTM 结构 。 
stacked lstm = rnn cell.MultiRNNCell([lstm] * number of layers) 


# 和 经 典 的 循环 神经 网 络 一 样 ， 可 以 通过 zero state 函数 来 获取 初始 状态 。 


state = stacked lstm.zero state (batch size, tf.float32) 


# 和 8.2 市 中 给 出 的 代码 一 样 ， 计 算 每 一 时 刻 的 前 向 传播 结果 。 

itor i In range (len(num steps)): 
if i> 0: tf.get variable scope() .reuse variables{() 
stacked lstm output, state = stacked lstml(current input, state) 
final output = fully connected(stacked lstm output) 
loss += calc loss (final output, expected output) 


从 以 上 代码 可 以 看 到 , 在 TensorFlow 中 只 需要 在 BasicLSTMCell 的 基础 上 再 封装 一 层 
MultiRNNCell 束 可 以 非常 容易 地 实现 深层 循环 神经 网 络 了 。 


8.3.2 ”循环 神经 网 络 的 dropout 


6.4 节 介 绍 过 在 卷 积 神经 网 络 上 使 用 dropout 的 方法 。 通 过 dropout， 可 以 让 卷 积 神经 网 
络 更 加 健壮 〈robust) “。 类 似 的 ， 在 循环 神经 网 络 中 使 用 dropout 也 有 同样 的 功能 。 而 且 ， 
类 似 卷 积 神经 网 络 只 在 最 后 的 全 连接 层 中 使 用 dropout， 循 环 神经 网 络 一 般 只 在 不 同 层 循环 
体 结构 之 间 使 用 dropout， 而 不 在 同一 层 的 循环 体 结构 之 间 使 用 。 也 就 是 说 从 时 刻 t-7 传递 
到 时 刻 上 时 ， 律 环 神经 网 络 不 会 进行 状态 的 dropout;， 而 在 同一 个 时 刻 上 中 ， 不 同 层 循环 体 
之 间 会 使 用 dropout。 

如 图 8-9 展示 了 循环 神经 网 络 使 用 dropout 的 示意 图 。 假 设 要 从 1-2 时 刻 的 输入 xz 传 
弟 到 1+7 时 刻 的 输出 w+ 交 那么 xz 将 首先 传 入 第 一 层 循 环 体 结构 , 这 个 过 程 会 使 用 dropout。 
但 是 从 t-2 时 刻 的 第 一 层 循环 体 结 构 传 递 到 第 一 层 的 t-J、t、t+1 时 刻 不 会 使 用 dropout。 
在 tl 时 刻 的 第 一 层 循环 体 结构 传递 到 同一 时 刻 内 更 高 层 的 循环 体 结构 时 ， 会 再 次 使 用 


dropout. 


QD Zaremba W, Sutskever I, Vinyals O. Recurrent Neural Network Regularization[J]. Eprint Arxiv, 2014. 
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Yt—2 Yt=1 Ut Ytt1 Yt+2 


Zt_2 Tt_1 Zi Tet1 Ttt2 
图 8-9 ”深层 循环 神经 网 络 使 用 dropout 示意 图 
(图 中 实 线 箭头 表示 不 使 用 dropout， 虚 线 箭 头 表示 使 用 dropout) 
在 Tensorflow 中 ， 使 用 tf.nn.mn _cell.DropoutWrapper 类 可 以 很 容易 实现 dropout 功能 。 


以 下 代码 展示 了 如 何在 TensorFlow 中 实现 带 dropout 的 循环 神经 网 络 。 


上 # 定义 LSTM 结构。 
lstm = rnn cell.BasicLSTMCell (lstm size) 


# 使 用 DropoutWrapper 类 来 实现 dropout 功能 。 该 类 通过 两 个 参数 来 控制 dropout 的 概率 ， 
# 一 个 参数 为 input keep prob， 它 可 以 用 来 控制 输入 的 dropout 概率 ”; 另 一 个 为 

# output keep prob， 它 可 以 用 来 控制 输出 的 dropout 概率 。 

dropout lstm = tf.nn.rnn cell.DropoutWrapper(lstm, output keep prob=0.5) 


# 在 使 用 了 dropout 的 基础 上 定义 
stacked lstm = rnn cell.MultiRNNCell([dropout lstm] * number of layers) 


# 和 8.3.1 小 节 中 深层 循环 网 络 样 例 程序 类 似 ， 运 行 前 向 传播 过 程 。 


8.4 ”循环 神经 网 络 标 例 应 用 


在 以 上 几 节 中 已 经 介绍 了 不 同 循环 神经 网 络 的 网 络 结构 ， 并 给 出 了 具体 的 TensorFlow 


程序 来 实现 这 些 循环 神经 网 络 的 前 向 传播 过 程 。 这 一 节 将 给 出 两 个 具体 的 循环 神经 网 络 应 
用 样 例 一 一 自然 语言 建 模 和 时 序 预测 。 在 8.4.1 小 节 中 将 简单 介绍 什么 是 自然 语言 建 模 ， 并 


Q@ 注意 这 里 定义 的 实际 上 是 节点 被 保留 的 概率 。 如 果 给 出 的 数字 为 0.9, 那么 只 有 10% 的 节点 会 被 dropout。 
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通过 TensorFlow 实现 在 Penn TreeBank (PTB) 数据 集 上 的 自然 语言 模型 。 在 8.4.2 小 节 中 
将 傈 单 介 绍 TensorFlow 的 高 层 封 装 工 具 TFLearn, 并 通过 TFLearn 实现 对 函数 sinx 取 值 的 
预测。 


8.4.1 目 然 语言 建 模 


简单 地 说 ， 语 言 模型 的 目的 是 为 了 计算 一 个 名 子 的 出 现 概 率 。 在 这 里 把 句子 看 成 是 单 
词 的 序列 ,于 是 语言 模型 需要 计算 的 就 是 p(wi,w2w3,…,wm)。 利 用 语言 模型 ， 可 以 确定 哪个 
单词 序列 出 现 的 可 能 性 更 大 ， 或 者 给 定 铬 干 个 单词 ， 可 以 预测 下 一 个 最 可 能 出 现 的 词语 。 
举 个 音字 转换 的 例子 , 假设 输入 的 拼音 串 为 “xianzaiqguna” 它 的 输出 可 以 是 “西安 在 去 哪 ”， 
也 可 以 是 “现在 去 哪 ”"。 根 据 语言 常识 可 以 知道 ， 转 换 成 第 二 个 的 概率 更 高 。 语 言 模型 就 可 
以 得 到 后 者 的 概率 大 于 前 者 ， 因 此 在 大 多 数 情 况 下 转换 成 后 者 比较 合理 。 

那么 如 何 计算 一 个 句子 的 概率 呢 ? 首先 一 个 句子 可 被 看 成 是 一 个 单词 序列 : 

S=(Wi,W2,W3,W4,W5,**,Wimn ) 

其 中 m 为 句子 的 长 度 。 那 么 ， 它 的 概率 可 以 表示 为 : 

p(S)=p(Wi,w2, Ww3, Wa, Ws,*, Wm ) 
=p(wi) p(w [wi) pws mw2) pwn | Wi Wa,***, Win-1) 

要 计算 一 个 句子 出 现 的 概率 ， 就 需要 知道 上 面 公式 中 等 式 右边 中 每 一 项 的 取 值 。 等 式 
右边 的 每 一 项 都 是 语言 模型 中 的 一 个 参数 。 一 般 来 说 ， 任 何 一 门 语 言 的 词汇 量 都 很 大 ， 词 
汇 的 组 合 更 不 计 其 数 。 为 了 估计 这 些 参数 的 取 值 ， 常 见 的 方法 有 n-gram 方法 、 决 策 树 、 最 
大 炉 模 型 、 条 件 随机 场 、 神 经 网 络 语言 模型 ， 等 等 。 本 小 节 将 先 以 其 中 最 简单 的 n-gram 模 
型 来 介绍 语言 模型 问题 以 及 评价 模型 优 劣 的 标准 。n-gram 模型 有 一 个 有 限 历史 假设 : 当前 
单词 的 出 现 概率 仅仅 与 前 面 的 n-1 个 单词 相关 。 因 此 以 上 公式 可 以 近似 为 : 

p(S)=pWi, wa, was, Wm) =| |; POwi-nt,", wi-1) 

n-gram 模型 里 的 指 的 是 当前 单词 依赖 它 前 面 的 单词 的 个 数 。 通 常 n 可 以 取 1、2、3， 
这 时 n-gram 模型 分 别称 为 unigram、bigram 和 trigram 语言 模型 。 n-gram 模型 中 需要 估计 的 
参数 为 条 件 概率 p(wi|wi_nn1,…,wi-1)。 假 设 某 种 语言 的 单词 表 大 小 为 ky， 那么 n-gram 模型 
需要 估计 的 不 同 参 数 数量 为 放 。 当 nn 越 大 时 ，n-gram 模型 理论 上 越 准确 ， 但 也 越 复 杂 ， 需 
要 的 计算 量 和 训练 语 料 数 据 量 也 就 越 大 。 因 此 ， 最 常用 的 是 bigram， 其 次 是 unigram 和 
trigram。n 取 宇 4 的 情况 非常 少 。n-gram 模型 的 参数 一 般 末 用 最 大 似 然 估 计 《maximum 
likelihood estimation，MLE) 的 方法 计算 : 
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CC Wicnzls ss Wiis Wi) 
pWi| War Wel) = Pr i 

其 中 CO 表示 单词 序列 和 在 训练 语 料 中 出 现 的 钦 数 , 训练 语 料 的 规模 越 大 ， 参数 估计 
的 结果 越 可 靠 。 但 即使 训练 数据 的 规模 非常 大 时 ， 还 是 会 有 很 多 单词 序列 在 训练 语 料 中 没 
有 出 现 过 ， 这 就 会 导致 很 多 参数 为 0。 举 个 例子 来 说 ，IBM 使 用 了 366M 英语 语 料 训练 
trigram， 发 现 14.7% 的 trigram 和 2.2% 的 bigram 在 训练 中 没有 出 现 。 为 了 避免 因为 乘 以 0 
而 导致 整个 概率 为 0， 使 用 最 大 似 然 估计 方法 时 都 需要 加 入 平滑 避免 参数 取 值 为 0。 使 用 
n-gram 建立 语言 模型 的 细节 不 再 效 述 ， 感 兴趣 的 读者 可 以 看 考 书籍 Information Retrieval: 


Implementing and Evaluating Search Engines'. 


语言 模型 效果 好 坏 的 常用 评价 指标 是 复杂 度 (perplexity)。 人 简单 来 说 ，perplexity 值 刻 
画 的 就 是 通过 某 一 个 语言 模型 估计 的 一 句 话 出 现 的 概率 。 比 如 当 已 经 知道 (Wiwaa,……Wimn) 
这 人 名 话 出 现在 语料库 之 中 ， 那 么 通过 语言 模型 计算 得 到 的 这 人 名 话 的 概率 越 高 越 好 ， 也 就 是 
perplexity 值 越 小 越 好 。 计 算 perplexity 值 的 公式 如 下 : 


| 
Perplexiy(S)=p(W, Ws Ws Wn) ™ 


| I 
p(Wi, Wa, Wa,:', Wn ) 


i DW [Ws Was Wi ) 

复杂 度 perplexity 表示 的 概念 其 实 是 平均 分 支 系数 (average branch factor)， 即 模型 预 
测 下 一 个 词 时 的 平均 可 选择 数量 。 例如 , 考虑 一 个 由 0~9 这 10 个 数字 随机 组 成 的 长 度 为 m 
的 序列 。 由 于 这 10 个 数字 出 现 的 概率 是 随机 的 ， 所 以 每 个 数字 出 现 的 概率 是 一 。 因此 ， 


在 任意 时 刻 ， 模 型 都 有 10 个 等 概率 的 候选 答案 可 以 选择 ， 于 是 perplexity 就 是 10 (有 10 
个 合理 的 答案 )。perplexity 的 计算 过 程 如 下 : 


m| mn 
Perplexity(S)= 1[ 二 =00 
| i=l — 
10 


因此 ， 如 果 一 个 语言 模型 的 perplexity 是 89， 就 表示 ， 平 均 情况 下 ， 模 型 预测 下 一 个 
词 时 ， 有 89 个 词 等 可 能 地 可 以 作为 下 一 个 词 的 合理 选择 。 男 一 种 常用 的 perplexity 表达 形 
式 如 下 : 





DBttcher S$, Clarke C L A, Cormack G V, Information Retrieval: Jmplementing and Evaluating Search 
Engines[M]. The MiT Press, 2016. 
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-4 p(w [Wi wz Vi- 

相 比 乘积 开 根 号 的 方式 ， 使 用 加 法 的 形式 可 以 加 速 计 算 ， 这 也 有 效 地 避免 了 概率 为 0 
时 导致 整个 计算 结果 为 0 的 问题 。 

除了 n-gram 模型 ， 循 环 神经 网 络 也 可 以 用 来 对 自然 语言 建 模 。 考 虑 如 图 8-10 所 示 的 
循环 神经 网 络 , 每 个 时 刻 的 输入 为 一 个 句子 中 的 单词 , 而 每 个 时 刻 的 输出 为 一 个 概率 分 布 ， 
表示 句子 中 下 一 个 位 置 为 不 同 单词 的 概率 。 通 过 这 种 方式 ， 对 于 给 定 的 句子 ， 就 可 以 通过 
循环 神经 网 络 的 前 向 传播 过 程 计 算出 p(wi|m,…;wi-1)。 比 如 在 图 8-10 中 , 在 第 一 个 时 刻 输 
入 的 单词 为 “大 海 ?， 而 输出 为 pi“ 丈 游 ” 小 。 也 就 是 在 知道 第 一 个 词 为 “大 海 ” 后 ， 其 他 
不 同 单词 出 现在 下 一 个 位 置 的 概率 。 比 如 从 图 8-10 中 可 以 看 出 ，Pf ”太太 小 =0.8， 也 
就 是 说 “大 海 ” 之 后 的 单词 为 “的 ”的 概率 为 0.8。 

类 似 的 ， 通 过 往 环 神经 网 络 可 以 求 得 概率 记 人 | “ 式 效 ” " 访 ")、p 慷 | “开源 “ 认 ” " 库 
店 ”)、p(X|" 克 注 "”“W”,，“ 世 上 让",，" 赴 ")。 于 是 也 可 以 求 得 整个 甸子 “大 海 的 颜色 是 蓝 色 ” 
的 概率 ， 从 而 计算 出 这 句 话 的 perplexity 值 。 在 本 小 节 后 面 的 篇 幅 中 将 给 出 具体 的 
TensorFlow 代码 来 实现 通过 循环 神经 网 络 对 自然 语言 建 模 。 


log( perplexity(S))= 


毅 色 ; 09, 
深度 ; 0.05, 





四 下 


图 8-10 使 用 循环 神经 网 络 实现 自然 语言 建 模 示意 图 


PTB 文本 数据 集 介 绍 

PTB (Penn Treebank Dataset) 文本 数据 集 是 语言 模型 学 习 中 目前 最 广泛 使 用 的 数据 集 。 
本 小 节 将 在 PTB 数据 集 上 使 用 循环 神经 网 络 实 现 语 言 模型 。 在 给 出 语言 模型 代码 之 前 将 先 
简单 介绍 PTB 数据 集 的 格式 以 及 TensorFlow 对 于 PTB 数据 集 的 支持 。 首 先 ， 需 要 下 载 来 
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源 于 Tomas Mikolov 网 站 上 的 PTB 数据 。 数 据 的 下 载 地 址 为 : 


http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples .tgz 


将 下 载 下 来 的 文件 解压 之 后 可 以 得 到 如 下 文件 夹 列表 


1-train/ 
2-nbest-rescore/ 
3-combination/ 
4-data-generation/ 
5-one-iter/ 
6-recovery-during-training/ 
7-dynamic-evaluation/ 
8-direct/ 
9-char-based-lm/ 
data/ 

models/ 

rnnlm-0 .2b/ 


本 书 只 需要 关心 data 文件 夹 下 的 数据 ， 对 于 其 他 文件 不 再 一 一 介绍 ， 感 兴趣 的 读者 可 
以 目 行 参考 README 文件 。 在 data 文件 夹 下 总 共有 7 个 文件 ， 但 本 书 中 将 只 会 用 到 以 下 
二 OCT 

ptb.test.txt  # 测试 集 数据 文件 

ptb.train.txt 二 训练 集 数 据 文件 

ptb.valid.txt  # 验证 集 数据 文件 

这 三 个 数据 文件 中 的 数据 已 经 经 过 了 预 处 理 ， 包 含 了 10000 个 不 同 的 词语 和 语句 结束 
标记 符 〈 在 文本 中 就 是 换行 符 ) 以 及 标记 稀有 词语 的 特殊 符号 <unk>。 下 面 展 示 了 训练 数据 
中 的 一 行 : 

mr. <unk> is chairman of <unk> n.v. the dutch publishing group 

为 了 让 使 用 PTB 数据 集 更 加 方便 ，TensorFlow 提供 了 两 个 函数 来 帮助 实现 数据 的 预 处 
理 。 首 先 ，TensorFlow 提供 了 ptb_raw_data 函数 来 读 取 PTB 的 原始 数据 ， 并 将 原始 数据 中 
的 单词 转化 为 单词 ID。 以 下 代码 展示 了 如 何 使 用 这 个 函数 。 

from tensorflow.models.rnn.ptb import reader 

# 存放 原始 数据 的 路 径 。 

DATA PATH = "/path/to/ptb/data" 

train data, valid data, test data, = reader.ptb raw data(DATA PATH) 


# 读 取 数 据 原 始 数 据 。 


print lenl(train data) 
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print train datal[l:100] 


运行 以 上 程序 可 以 得 到 输出 : 

929589 

[9970,; '9971, 9972, 9974, 9975, 9976, .99807 9981, 9982, 9983; 99847 9986, 9987; 
99887 99897'99917 999279993y 9994; 99957;%9996719997;399987 9999,， 2; 9256， 
Li3r 207393 0 3332133r .07 407 L977 07 920TR TO TAO0T 3 2 23 TO LAL 
A O40507 O07 300T LOIG OO m2 bdr LR 07 3393 By S337 AT STE2A Ll 
657, 2170, 955, 24, 521, 6, 9207, 276, 4, 39, 303, 438, 3684, 2, 6, 942, 4, 
3150, 496, 263, 5, 138, 6092, 4241, 6036, 30, 988, 6, 241, 760, 4, 1015, 2786, 
2117 07 .9.0 


从 输出 中 可 以 看 出 训练 数据 中 总 共 包含 了 929589 个 单词 , 而 这 些 单词 被 组 成 了 一 个 非 


常 长 的 序列 。 这 个 序列 通过 特殊 的 标识 符 给 出 了 每 句 话 结束 的 位 置 。 在 这 个 数据 集中 ， 句 
子 结束 的 标识 符 ID 为 2。 


在 8.1 节 中 介绍 过 ， 虽 然 循环 神经 网 络 可 以 接受 任意 长 度 的 序列 ， 但 是 在 训练 时 需要 


将 序列 按照 某 个 固定 的 长 度 来 截断 。 为 了 实现 截断 并 将 数据 组 织 成 batch，TensorFlow 提供 
了 ptb_iterator 函数 。 以 下 代码 展示 了 如 何 使 用 ptb_iterator 函数 。 
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from tensorflow.models.rnn.ptb import reader 


# 藉 似 地 读 取 数 据 原 始 数据 。 
DATA PATH = "/path/to/ptb/data" 
train data, Valid data, test data, = reader.ptb raw data (DATA PATH) 


# 将 训练 数据 组 织 成 batch 大 小 为 4、 截 断 长 度 为 5 的 数据 组 。 

result = reader.ptb iterator (train data, 4, 5) 

# 读 取 第 一 个 batch 中 的 数据 。 其 中 包括 每 个 时 刻 的 输入 和 对 应 的 正确 输出 。 
x, y= result.next() 

DETIG 

PELDE OY 


运行 以 上 程序 可 以 得 到 输出 : 
xX: [[9970 9971 9972 9974 9975] 
[ 332 7147 328 1452 8595] 
[1969 0 98 89 2254] 
[> 3 2 4] 
y: [[9971 9972 9974 9975 9976] 
人 
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[7147 328 1452 8595 59] 
eh 
p30 a a Dl 


8-11 展示 了 ptb iterator 函数 实现 的 功能 。ptb_iterator 函数 会 将 一 个 长 序列 划分 为 
batch size 段 ， 其 中 batch size 为 一 个 batch 的 大 小 。 每 次 调用 ptb iterator 时 ， 该 函数 会 从 
每 一 段 中 读 取 长 度 为 num_ step 的 子 序 列 ， 其 中 num step 为 截断 的 长 度 。 从 上 面 代码 的 输 
出 可 以 看 到 ， 在 第 一 个 batch 的 第 一 行 中 ， 前 面 5 个 单词 的 ID 和 整个 训练 数据 中 前 $ 个 单 
词 的 ID 是 对 应 的 。ptb iterator 在 生成 batch 时 可 以 会 目 动 生成 每 个 batch 对 应 的 正确 答案 ， 
这 个 对 于 每 一 个 单词 ， 它 对 应 的 正确 答案 就 是 该 单词 的 后 面 一 个 单词 。 





Batch 大 小 





按 长 度 截 断 的 一 个 batch 
图 8-11 将 一 个 长 序列 分 成 batch 并 截断 的 操作 示意 图 
使 用 循环 神经 网 络 实现 语言 模型 
在 介绍 了 语言 模型 的 理论 和 使 用 到 的 数据 集 之 后 ， 下 面 给 出 了 一 个 完成 的 TensorFlow 
样 例 程序 来 通过 循环 神经 网 络 实现 语言 模型 。 


Fm Coding:d utr-3 一 二 一 
import numpy as np 


import tensorflow as tf 
from tensorflow.models.rnn.ptb import reader 


DATA PATH = "/path/to/ptb/data" # 数据 存放 的 路 径 。 
HIDDEN SIZE = 200 # 隐藏 层 规模 。 
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NUM LAYERS = 2 # 深层 循环 神经 网 络 中 LSTM 结构 的 层 数 。 

VOCAB SIZE = 10000 # 词典 规模 ， 加 上 语句 结束 标识 符 和 稀有 
# 单词 标识 符 总 共 一 万 个 单词 。 

LEARNING RATE = 1.0 # 学 习 速 率 。 

TRAIN BATCH SIZE = 20 # 训练 数据 batch 的 大 小 。 

TRAIN NUM STEP = 35 # 训练 数据 截断 长 度 。 

# 在 测试 时 不 需要 使 用 截断 ， 所 以 可 以 将 测试 数据 看 成 一 个 超 长 的 序列 。 

EVAL BATCH SIZE = 1 # 测试 数据 batch 的 大 小 。 

EVAL NUM STEP = 1 # 测试 数据 截断 长 度 。 

NUM EPOCH = 2 # 使 用 训练 数据 的 轮 数 。 

KEEP PROB = 0.5 # 节点 不 被 dropout 的 概率 。 

MAX GRAD NORM = 5 # 用 于 控制 梯度 膨胀 的 参数 。 


# 通过 一 个 PTBModel 类 来 描述 模型 ， 这 样 方便 维护 循环 神经 网 络 中 的 状态 。 
class PTBModel] (object): 
def init ‘(self; is training: batch sizée, num ‘steps): 
# 记录 使 用 的 batch 大 小 和 截断 长 度 。 
self.batch size = batch size 
self.num steps = num steps 


# 定义 输入 层 。 可 以 看 到 输入 层 的 维度 为 batch size x num steps， 这 和 
# ptb iterator 函数 输出 的 训练 数据 batch 是 一 致 的 。 
self.input data = tf.placeholder (tf.int32, [batch size num steps]) 


# 定义 预期 输出 。 它 的 维度 和 ptb iterator 函数 输出 的 正确 答案 维度 也 是 一 样 的 。 
self.targets = tf.placeholder (tf.int32, [batch size, num steps]) 


# 定义 使 用 LSTM 结构 为 循环 体 结构 且 使 用 dropout 的 深层 循环 神经 网 络 。 
lstm cell = tf.nn.rnn cell.BasicLSTMCell]l (HIDDEN SI2ZE) 
if is training : 
lstm cell = tf.nn.rnn cell.DropoutWrapper ( 
lstm cell, output keep prob=KEEP PROB) 
cell = tf.nn.rnn cell.MultiRNNCell([lstm cell] * NUM LAYERS) 


# 初始 化 最 初 的 状态 ， 也 就 是 全 零 的 疝 量 。 

self.initial state = cell.zero state(batch size, tf.float32) 

# 将 单词 ID 转换 成 为 单词 向 量 。 因 为 总 共有 VOCAB SIZE 个 单词 ， 每 个 单词 向 量 的 维度 
# 为 HIDDEN SIZE,; 所 以 embedding 参数 的 维度 为 VOCRB SITZBE X HIDDEN SIZE"。 
embedding = tf.get variable("embedding", [VOCAB SIZE, HIDDEN SIZE]) 


# 将 原本 batch size x num steps 个 单词 ID 转化 为 单词 向 量 ， 转 化 后 的 输入 层 维度 


人 关于 更 多 关于 使 用 TensorFlow 实现 单词 问 量 的 资料 可 以 参考 TensorFlow 官方 网 站 : https://www. 


tensorflow.org/tutorials/word2vec/。 
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# 为 batch size x num steps x HIDDEN _ SIZE。 
inputs = tf.nn.embedding lookup (embedding, self.input data) 


# 只 在 训练 时 使 用 dropout。 
if is training: inputs = tf.nn.dropout (inputs, KEEP PROB) 


# 定义 输出 列表 。 在 这 里 先 将 不 同时 刻 LSTM 结构 的 输出 收集 起 来 ， 再 通过 一 个 全 连接 
# 层 得 到 最 终 的 输出 。 
outputs = [] 
# state 存储 不 同 batch 中 LSTM 的 状态 ， 将 其 初始 化 为 0。 
state = self.initial state 
with tf.variable scope ("RNN"): 
for time step in range (num steps): 
if time step > 0: tf.get variable scope() .reuse variables() 
# 从 输入 数据 中 获取 当前 时 刻 获 的 输入 并 传 入 LSTM 结构 。 
cell output,;, state = cell(inputs[:, time step; :]7 state) 
# 将 当前 输出 加 入 输出 队列 。 
outputs.append(cell output) 


# 把 输出 队列 展开 成 [batch，hidden size*num steps] 的 形状 ,然后 再 
# reshape 成 [batch*numsteps，hidden size] 的 形状 。 
output = tf.reshape (tf.concat (1, outputs), [-~l1, HIDDEN SIZE]) 


# 将 从 LSTM 中 得 到 的 输出 再 经 过 一 个 全 链接 层 得 到 最 后 的 预测 结果 ， 最 终 的 预测 结果 在 
# 每 一 个 时 刻 上 都 是 一 个 长 度 为 VYOCAB SIZE 的 数组 ， 经 过 softmax 层 之 后 表示 下 一 个 
# 位 置 是 不 同 单词 的 概率 。 

weight = tf.get Variable("welght"， [HIDDEN SIZE, VOCAB SIZE]) 

bias = tf.get variable("bias", [VOCAB SIZE]) 

logits = tf.matmul (output, weight) + bias 


# 定义 交叉 烂 损失 函数 。TensorFlow 提供 了 sequence loss by example 函数 来 计 
# 算 一 个 序列 的 交叉 烂 的 和 。 
loss = tf.nn.segq2seq.sequence loss by examplel( 

[logits], # 预测 的 结果 。 

[tf.reshape (self.targets, [-1])], # 期 待 的 正确 答案 ， 这 里 将 

, # [batch size, num steps] 
# 二 维 数组 压缩 成 一 维 数 组 。 

# 损失 的 权重 。 在 这 里 所 有 的 权重 都 为 1， 也 就 是 说 不 同 batch 和 不 同时 刻 

# 的 重要 程度 是 一 样 的 。 

[tfE.ones ( [batch size * num steps], dtype=tf.float32)]) 


# 计算 得 到 每 个 batch 的 平均 损失 。 
self.cost = tf.reduce sum(loss) / batch size 
self.final state = state 


# 只 在 训练 模型 时 定义 反 向 传播 操作 。 


if not is training: return 
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trainable variables = tf.trainable variables () 
# 通过 clip_by_global norm 函数 控制 梯度 的 大 小 ， 避 免 梯度 膨胀 的 问题 。 
grads, = tf.clip by global norm( 

tf.gradients (self.cost, trainable variables), MAX GRAD NORM) 


# 定义 优化 方法 。 
optimizer = tf.train.GradientDescentOptimizer (LEARNING RATE) 
# 定义 训练 步骤 。 
self.train op = optimizer.apply gradients ( 
zip(grads, trainable variables)) 


# 使 用 给 定 的 模型 mode1 在 数据 data 上 运行 train op 并 返回 在 全 部 数据 上 的 perplexity 值 。 


def run epochl(session, model, data, train op, output log): 


# 计算 perplexity 的 辅助 变量 。 
total’ costs = 0.0 
iters = 0 
state = session.runl(model.initial state) 
# 使 用 当前 数据 训练 或 者 测试 模型 。 
for step, (x, y) in enumeratel 
reader.ptb iterator(data, model.batch size, model.num steps)): 
# 在 当前 batch 上 运行 上 train_op 并 计算 损失 值 。 交 又 人 损 失 函 数 计 算 的 就 是 下 一 个 单 
# 词 为 给 定单 词 的 概率 。 
costr state,; = session:run'( 
[model .cost, model.final state, train op], 
{model.input data: x, model.targets: y, 
model.initial state: state}) 
# 将 不 同时 刻 、 不 同 batch 的 概率 加 起 来 就 可 以 得 到 第 二 个 perplexity 公式 等 号 右 
# 边 的 部 分 ， 再 将 这 个 和 做 指数 运算 就 可 以 得 到 perplexity 值 。 
total costs += cost 
iters += model.num steps 


# 只 有 在 训练 时 输出 日 志 。 
If output log and step % 100 == 
print ("After $%d steps, perplexity is: %.3f" % ( 
step, np.exp(total costs / iters))) 


# 返回 给 定 模 型 在 给 定数 据 上 的 perplexity 值 。 


return np.exp(total costs / iters) 
A 


def main( ): 


# 获取 原始 数据 。 3 
train dat@, valid data, test data, = reader.ptb raw data (DATA PATH) 


# 定义 初始 化 函数 。 


Initializer = tf.random uniform initializer(-0.05, 0.05) 


# 定义 训练 用 的 循环 神经 网 络 模型 。 
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with tf.variable scope("language model", 
reuse=None, initializer=initializer): 
train model = PTBModel (True, TRAIN BATCH SIZE, TRAIN NUM STEP) 


# 定义 评测 用 的 循环 神经 网 络 模型 。 
with tf.variable scope("language model", 
reuse=True, initializer=initializer): 
eval model = PTBModel (False, EVAL BATCH SIZE, EVAL NUM STEP) 


with tf.Session() as session: 
tf.initialize all Variables() .zun() 


# 使 用 训练 数据 训练 模型 。 
for i in range (NUM EPOCH): 
hohob ro hun Dm Sl Pp ok 工人 
# 在 所 有 训练 数据 上 训练 循环 神经 网 络 模 型 。 
run epoch(session, train model, 
train data, train model.train op, True) 


# 使 用 验证 数据 评测 模型 效果 。 
valid perplexity = un epoch ( 
session, eval model, valid data, tf.no op(), False) 
print ("Epoch: %d Validation Perplexity: %.3f" % ( 
i + 17 Valid perplexity)) 


# 最 后 使 用 测试 数据 测试 模型 效果 。 
test perplexity = run epoch ( 

session, eval model, test data, tf.no op(), False) 
print ("Test Perplexity: %.3f" % test perplexity) 


运行 以 上 程序 可 以 得 到 类 似 如 下 的 输出 0: 


In iteration: 1 

After 0 steps, perplexity is 10003.783 

After 100 steps, perplexity is 1404.742 
After 200 steps, perplexity is 1061.458 
After 300 steps, perplexity is 891.044 

After 400 steps, perplexity is 782.037 


Q 在 TensorFlow 0.9.0 下 运行 会 提示 :“WARNING:tensorflow:<tensorflow.python.ops.rnn_cell.BasicLSTMC 
ell object at Ox7fcb4f3ael50>: Using a concatenated state js Slower and will soon be deprecated. U 
se state is_tuple=True.” 这 不 会 影响 运行 。 但 是 TensorFlow0.9.0 对 state is_tupe=True 不 支持 ， 所 以 书 
中 没有 设置 ， 在 TensorFlow 更 高 的 版 本 中 可 以 将 state_is_tuple 参数 设置 为 True。 
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After 1100 steps, perplexity Is 228.711 
After 1200 steps, perplexity is 226.093 
After 1300 steps, perplexity is 223.214 
Epoch: 2 Validation Perplexity: 183.443 
Test Perplexity: 179.420 


从 输出 可 以 看 出 ， 在 迭代 开始 时 perplexity 值 为 10003.783， 这 基本 相当 于 从 一 万 个 单 
词 中 随机 选择 下 一 个 单词 。 而 在 训练 结束 后 ， 在 训练 数据 上 的 perplexity 值 降低 到 了 
179.420。 这 表明 通过 训练 过 程 ， 将 选择 下 一 个 单词 的 范围 从 一 万 个 减 小 到 了 大 约 180 个 。 
通过 调整 LSTM 隐藏 层 的 节点 个 数 和 大 小 以 及 训练 迭代 的 轮 数 还 可 以 将 perplexity 值 降 到 
更 低 。 


8.4.2 时间 序列 预测 


本 小 节 将 介绍 如 何 利用 循环 神经 网 络 来 预测 正弦 〈sin) 函数 "， 图 8-12 给 出 了 sin 函 
数 的 函数 图 像 。 在 给 出 具体 的 TensorFlow 代码 之 前 ,本 小 节 将 先 介绍 另外 一 个 对 TensorFlow 
的 高 层 封 装 一 一 TFLearn”。 和 第 6 章 中 介绍 的 TensorFlow-Slim 类 似 , 通过 使 用 TFLearn 可 
以 让 TensorFlow 代码 效率 进一步 提高 。 





1.0 


-1.0 
0 200 #00 500 800 1000 


8-12 sin 函数 曲线 


中 本 小 节 部 分 内 容 参 考 自 ; http://mourafiq.com/2016/05/15/predicting-sequences-using-rnn-in-tensorflow.html 
@ TFLeam 又 名 skflow， 它 们 是 同一 套 系统 。 
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使 用 TFLearn 自 定义 模型 


TensorFlow 的 男 外 一 个 高 层 封装 TFLeam( 集 成 在 tf.contrib.learn 里 ) 对 训练 TensorFlow 
模型 进行 了 一 些 封装 ,使 其 更 便于 使 用 。 本 小 节 将 通过 iris 数 据 集 简单 介绍 如 何 使 用 TFLearmn 
实现 分 类 问题 。iris 数据 集 需 要 通过 4 个 特征 (feature) 来 分 辨 三 种 类 型 的 植物 。iris 数据 
集中 总 共 包 含 了 150 个 样本 ”以 下 程序 展示 了 如 何 通 过 TFLearn 快速 的 解决 iris 分 类 问题 。 


# -*-= coding: utf-8 -*-— 


# 为 了 方便 数据 处 理 ， 本 程序 使 用 了 sklearn 工具 包 ， 关 于 这 个 工具 包 更 多 的 信息 可 以 参考 
# http://scikit-learn.org/s。 

from sklearn import cross validation 

from sklearn import datasets 

from sklearn import metrics 

import tensorflow as tf 


# 导入 TFLearn。 
learn = tf.contrib.learn 


# 目 定 义 模型 ， 对 于 给 定 的 输入 数据 (features) 以 及 其 对 应 的 正确 答案 (target)， 返 回 在 这 
# 些 输入 上 的 预测 值 、 损 失 值 以 及 训练 步骤 。 
def my model (features, target): 
# 将 预测 的 目标 转换 为 one-hot 编码 的 形式 ， 因 为 共有 三 个 类 别 ， 所 以 向 量 长 度 为 3。 经 过 转 
# 化 后 ， 第 一 个 类 别 表 示 为 (1, 0,0)， 第 二 个 为 (0,1,0)， 第 三 个 为 (0,0,1)。 
target = tf.one hot (target, 3, 1, 0) 


# 定义 模型 以 及 其 在 给 定数 据 上 的 损失 函数 。TFLearn 通过 logistic regression 封装 了 
# 一 个 单 层 全 连接 神经 网 络 。 


logits, loss = learn.models.logistic regression (features， target) 


# 创建 模型 的 优化 器 ， 并 得 到 优化 步骤 。 


train op = tf.contrib.layers.optimize 1oss ( 


loss, # 损失 函数 

tf .contrib .framework.get global step()，# 获取 训练 步 数 并 在 训练 时 更 新 
optimizer='Adagrad', # 定义 优化 器 
learning rate=0.1) # 定义 学 习 率 


# 返回 在 给 定数 据 上 的 预测 结果 、 损 失 值 以 及 优化 步骤 。 


return tf.arg max(logits, 1), loss, train op 


# 加 载 iris 数据 集 ， 并 划分 为 训练 集合 和 测试 集合 。 
iris = datasets.load iris() 
x train, x test, y train, y test = cross validation.train test splitl( 


(DD 更 多 关于 iris 数据 集 的 信息 可 以 参考 : http://archive.ics.uci.edu/ml/datasets/Iris。 


223 
' 


ww ai bbt.com DODODDDDOD 





TensorFlow: 实战 Google 深度 学 习 框 架 


iris.data, iris.target, test size=0.2, random state=0) 


# 对 自 定义 的 模型 进行 封装 。 


classifier = learn.Estimator (model fn=my model) 


# 使 用 封装 好 的 模型 和 训练 数据 执行 100 轮 碗 代 。 


classifier.fit(x train, y train, steps=100) 


# 使 用 训练 好 的 模型 进行 结果 预测 。 


y predicted = classifier.predict (x test) 


# 计算 模型 的 准确 度 。 
score = metrics.accuracy scorely test, y predicted) 
print('Accuracy: %.2f%$%' S$ (Score * 100)) 


运行 以 上 程序 可 以 得 到 输出 ; 
Accuracy: 90.00% 


通过 以 上 程序 可 以 看 出 TFLeam 既 封 装 了 一 些 常 用 的 神经 网 络 结构 ， 又 省 去 了 模型 训 
练 的 部 分 ， 这 让 TensorFlow 的 程序 可 以 变 得 更 加 人 简短。 

预测 正弦 函数 

通过 TFLearn， 下 面 的 篇 幅 将 给 出 具体 的 TensorFlow 程序 来 实现 预测 正弦 函数 sin。 因 
为 标准 的 循环 神经 网 络 模型 预测 的 是 离散 的 数值 ， 所 以 在 程序 中 需要 将 连续 的 sin 函数 曲 
线 离散 化 。 所 谓 离散 化 就 是 在 一 个 给 定 的 区 间 [0, MAX] 内 ， 通 过 有 限 个 采样 点 模拟 一 个 连 
续 的 曲线 。 比 如 在 以 下 程序 中 每 隔 SAMPLE ITERVAL 对 sin 函数 进行 一 次 采样 ， 采 样 得 
到 的 序列 就 是 sin 函数 离散 化 之 后 的 结果 。 以 下 程序 为 预测 离散 化 之 后 的 sin 函数 。 

= Odingr itfea > 


import numpy as np 
import tensorflow as tf 


# 加 载 matplot1lib 工具 包 ， 使 用 该 工具 可 以 对 预测 的 sin 函数 曲线 进行 绘图 。 
import matplotlib as mpl 

mpl.use('Agg'’') 

from matplotlib import pyplot as plt 


learn = tf.contrib.learn 


HIDDEN SIZE = 30 # 工 STM 中 隐藏 节点 的 个 数 。 
NUM LAYERS = 2 # LSTM 的 层 数 。 
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TIMESTEPS = 10 # 循环 神经 网 络 的 截断 长 度 。 
TRAINING STEPS = 10000 # 训练 轮 数 。 

BATCH SIZE = 32 # batch 大 小 。 

TRAINING EXAMPLES = 10000 # 训练 数据 个 数 。 

TESTING EXAMPLES = 1000 # 测试 数据 个 数 。 

SAMPLE GAP = 0.01 # 采样 间隔 。 


def generate data(seq): 
9 
Ye 人 
# 序列 的 第 i 项 和 后 面 的 TIMESTEPS-1 项 合 在 一 起 作为 输入 ; 第 i + TIMESTEPS 项 作为 输 
# 出 。 即 用 sin 函数 前 面 的 TIMESTEPS 个 点 的 信息 ， 预 测 第 i+ TIMESTEPS 个 点 的 函数 值 。 
for i in range (len(seqgq) - TIMESTEPS - 1): 

XxX.append([seqli: i + TIMESTEPS]]) 

y.append([seqgql[i + TIMESTEPS]]) 
return np.array (X, dtype=np.float32), np.array (y, dtype=np.float32) 


def lstm model (X, y): 
# 使 用 多 层 的 1stm 结构 。 
lstm cell = tf.nn.rnn cell.BasicLSTMCell (HIDDEN SIZE) 
cell = tf.nn.rnn cell.MultiRNNCell([lstm cell] * NUM LAYERS) 
x = tf.unpack(X, axis=]1)® 


# 使 用 TensorFlow 接口 将 多 层 的 LSTM 结构 连接 成 RNN 网 络 并 计算 其 前 向 传播 结果 。 
output, = tf.nn.rnn(cell, x , dtype=tf.float32) 

# 在 本 问题 中 只 关注 最 后 一 个 时 刻 的 输出 结果 ， 该 结果 为 下 一 时 刻 的 预测 值 。 

output = output[-1] 


# 对 LSTM 网 络 的 输出 再 做 加 一 层 全 链接 层 并 计算 损失 。 注 意 这 里 默认 的 损失 为 平均 
# 平方 差 损 失 函 数 。 


prediction, loss = learn.models.linear regression (output, y) 


# 创建 模型 优化 器 并 得 到 优化 步骤 。 

train op = tf.contrib.layers.optimize loss( 
loss, tf.contrib.framework.get global step(), 
optimizer="Adagrad", learning rate=0.1) 


return prediction, loss, train op 


# 建立 深层 循环 网 络 模 型 。 


bb 此 处 要 求 TensorFlow0.10.0 及 以 上 版 本 。 
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regressor = learn.Estimator (model fn=lstm model) 


# 用 正弦 函数 生成 训练 和 测试 数据 集合 。 
# numpy.1linspace 国 数 可 以 创建 一 个 等 差 序列 的 数组 ， 它 常用 的 参数 有 三 个 参数 ， 第 一 个 参数 
# 表示 起 始 值 , 第 二 个 参数 表示 终止 值 , 第 三 个 参数 表示 数列 的 长 度 。 例 如 , linespace (1,10,10) 
# 产生 的 数组 是 arrray([1,2,3,4,5,6,7,8,9,10])。 
test start = TRAINING EXAMPLES * SAMPLE GAP 
‘test end = (TRAINING EXAMPLES + TESTING EXAMPLES) * SAMPLE GAP 
train X, train y = generate datal(np.sinl(np.linspacel! 
0, test start, TRAINING EXAMPLES, dtype=np.float32))) 
test xX, test y = generate data (np.sin(np.linspacel( 
test start, test end, TESTING EXAMPLES, dtype=np.float32))) 


# 调用 fit 函数 训练 模型 。 
regressor.fit (train X, train y, batch size=BATCH SIZE, 
steps=TRAINING STEPS) 


# 使 用 训练 好 的 模型 对 测试 数据 进行 预测 。 

predicted = [[pred] for pred in regressor.predict (test X) ] 
# 计算 rmse 作为 评价 指标 。 

rmse = np.sqrt(((predicted - test y) ** 2) .mean (axis=0)) 
print ("Mean Square Error is: %f" 和 要 rmse[0]) 


运行 以 上 程序 可 以 得 到 输出 : ” 
Mean Square Error is: 0.002183 
从 输出 可 以 看 出 通过 循环 神经 网 络 可 以 非常 精确 的 预测 正弦 函数 sin 的 取 值 。 


# 对 预测 的 sin 函数 曲线 进行 绘图 ， 并 存储 到 运行 目录 下 的 sin.png 

fig = plt.figure!() 

Plot predicted = plt.plot(predicted, label=!'predicted') 

plot test = plt.plot (test y, label='real sin') 

plt.legend([plot predicted, plot test], ['predicted', 'real sin’']) 
# 得 到 的 结果 如 图 8-21 所 示 。 


fig.savefig('sin.png') 


从 图 8-13 中 可 以 看 出 ， 预 测 得 到 的 结果 和 真实 的 sin 函数 几乎 是 重合 的 。 也 束 是 说 通 
过 循环 神经 网 络 可 以 非常 好 地 预测 sin 函数 的 取 值 。 


QD 运行 该 程序 可 能 会 因为 TFLeam 的 版 本 而 得 到 一 些 waring, 但 这 些 warming 不 会 影响 程序 的 正常 运行 。 
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图 8-13 ”通过 循环 神经 网 络 预测 sin 函数 得 到 的 结果 
小 结 


本 章 详细 介绍 了 循环 神经 网 络 的 整体 架构 ， 并 介绍 了 循环 神经 网 络 中 最 常用 的 LSTM 
结构 ,在 本 章 中 也 给 出 了 两 个 具体 的 样 例 来 介绍 如 何 将 循环 神经 网 络 应 用 于 实际 问题 之 中 。 
首先 ， 在 本 章 的 8.1 节 中 讲解 了 什么 是 循环 神经 网 络 。 在 这 一 节 中 介绍 了 循环 神经 网 络 的 
整体 结构 ， 并 给 出 了 一 个 具体 的 样 例 来 说 明 循 环 神经 网 络 是 如 何 工作 的 。 接 着 ， 在 8.2 节 
中 介绍 循环 神经 网 络 中 使 用 的 最 为 广泛 的 LSTM 结构 ,大致 介 绍 了 LSTM 结构 的 主要 成 分 ， 
并 给 出 了 具体 的 TensorFlow 样 例 程序 来 实现 使 用 了 LSTM 结构 的 循环 神经 网 络 。 然 后 ， 在 
8.3 节 中 介绍 了 LSTM 结构 的 一 些 主流 变种 。 最 后 ,在 8.4 节 中 给 出 了 使 用 循环 神经 网 络 解 
决 具体 问题 的 两 个 案例 。 在 8.4.1 小 节 中 介绍 了 如 何 使 用 循环 神经 网 络 实现 自然 语言 模型 ; 
在 8.4.2 小 节 介 绍 了 通过 TensorFlow 的 高 层 封 装 TFLearm 实现 时 序 预 测 问题 。 
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前 面 的 章节 已 经 介绍 了 如 何 使 用 TensorFlow 实现 常用 的 神经 网 络 结 构 。 在 将 这 些 神经 
网 络 用 于 实际 问题 之 前 ， 需 要 先 优化 神经 网 络 中 的 参数 。 这 就 是 训练 神经 网 络 的 过 程 。 训 
练 神经 网 络 十 分 复 沫 ， 有 时 项 要 几 天 甚至 几 周 的 时 间 。 为 了 更 好 的 管理 、 调 试 和 优化 神经 
网 络 的 训练 过 程 ，TensorFlow 提供 了 一 个 可 视 化 工具 TensorBoard。TensorBoard 可 以 有 效 
地 展示 TensorFlow 在 和 运行 过 程 中 的 计算 图 .各 种 指标 随 独 时 间 的 变化 趋势 以 及 训练 中 使 用 
到 的 图 像 等 信息 。 

本 章 将 详细 介绍 TensorBoard 的 使 用 方法 。 首 先 ，9.1 节 将 介绍 TensorBoard 的 基础 知 
识 ， 并 通过 TensorBoard 来 可 视 化 一 个 简单 的 TensorFlow 样 例 程序 。 在 这 一 节 中 将 介绍 如 
何 启动 TensorBoard， 并 大 致 讲解 TensorBoard 提供 的 几 类 可 视 化 信息 。 然 后 ，9.2 节 将 介绍 
通过 TensorBoard 得 到 的 TensorFlow 计算 图 的 可 视 化 结果 。TensorFlow 计算 图 保存 了 
TensorFlow 程序 计算 过 程 的 所 有 信息 。 因 为 TensorFlow 计算 图 中 的 信息 含量 较 多 ， 所 以 
TensorBoard 设计 了 一 套 交 互 过 程 来 更 加 清晰 地 呈现 这 些 信息 。 在 这 一 节 中 将 详细 介绍 
TensorBoard 的 交互 流程 以 及 可 视 化 结果 中 提供 的 信息 。 最 后 ，9.3 节 将 详细 讲解 如 何 使 用 
TensorBoard 对 训练 过 程 进行 监控 ， 以 及 如 何 通过 TensorFlow 指定 需要 可 视 化 的 指标 。 在 
这 一 节 中 给 出 了 完整 的 样 例 程序 介绍 如 何 得 到 可 视 化 结果 。 


9.1 TensorBoard 简介 


TensorBoard 是 TensorFlow 的 可 视 化 工具 ， 它 可 以 通过 TensorFlow 程序 运行 过 程 中 输 
出 的 日 志文 件 可 视 化 TensorFlow 程序 的 运行 状态 。TensorBoard 和 TensorFlow 程序 跑 在 不 
同 的 进程 中 , TensorBoard 会 自动 读 取 最 新 的 TensorFlow 日 志文 件 , 并 呈现 当前 TensorFlow 
程序 运行 的 最 新 状态 。 以 下 代码 展示 了 一 个 简单 的 TensorFlow 程序 ， 在 这 个 程序 中 完成 了 
TensorBoard 日 志 输 出 的 功能 。 
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import tensorflow as tf 


# 定义 一 个 简单 的 计算 图 ， 实 现 向 量 加 法 的 操作 。 

inputl1 = tf.,constant([1.0, 2.0, 3.0]; name="inputl1") 

input2 tf.Variable (tf.random uniform([3]), name="input2") 
output tf.add n([inputi, input2], name="add") 


# 生成 一 个 写 日 志 的 writer, 并 将 当前 的 TensorFlow 计算 图 写 入 日 志 。TehsorFlow 提供 了 多 
# 种 写 日 志文 件 的 API， 在 9.3 节 中 将 详细 介绍 。 

writer = tf.train.SummaryWriter("/path/to/log", tf.get default graph()) 
WIIteTL .close() 


以 上 程序 输出 了 TensorFlow 计算 图 的 信息 ， 所 以 运行 TensorBoard 时 ， 可 以 看 到 这 个 
向 量 相 加 程序 计算 图 可 视 化 之 后 的 结果 。TensorBoard 不 需要 额外 的 安装 过 程 ， 在 
TensorFlow 安装 完成 时 ,TensorBoard 会 被 自动 安装 。 运 行 下 面 的 命令 可 以 启动 TensorBoard。 


# 运行 TensorBoard， 并 将 日 志 的 地 址 指向 上 面 程序 日 志 输 出 的 地 址 。 
tensorboard --logdir=/path/to/log 


运行 上 面 的 命令 会 启动 一 个 服务 ， 这 个 服务 的 端口 默认 为 6006”。 通 过 浏览 器 打开 
localhost:6006， 可 以 看 到 图 9-1 所 示 的 界面 。 在 界面 的 上 方 ， 可 以 看 到 有 五 栏 ， 分 别 是 
EVENTS、IMAGES、AUDIO、GRAPHS 和 HISTOGRAMS。TensorBoard 中 每 一 栏 都 对 应 
了 一 类 信息 的 可 视 化 结果 ， 在 下 面 的 章节 中 将 具体 介绍 每 一 栏 的 功能 。 如 图 9-1 所 示 ， 打 
开 TensorBoard 界面 会 默认 进入 EVENTS 栏 。 因 为 上 面 的 程序 没有 输出 任何 由 EVENTS 栏 
可 视 化 的 信息 ， 所 以 这 个 界面 显示 的 是 “No scalar data was found.”( 没 有 发 现 标量 数据 )。 
点 击 进 入 GRAPHS 栏 , 可 以 看 到 上 面 程序 TensorFlow 计算 图 的 可 视 化 结果 。 图 9-2 展示 了 
这 个 TensorFlow 计算 图 的 可 视 化 结果 。9.2 节 将 详细 介绍 如 何 理解 TensorFlow 计算 图 的 可 
视 化 结果 中 提供 的 信息 。 
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图 9-1 TensorBoard 默认 栏 界面 


QD 使 用 --port 参数 可 以 改变 启动 服务 的 端口 。 
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图 9-2 使 用 TensorBoard 可 视 化 向 量 相 加 程序 TensorFlow 计算 图 的 结果 


9.2 TensorFlow 计算 图 可 视 化 


在 图 9-2 中 给 出 了 一 个 TensorFlow 计算 图 的 可 视 化 效果 图 。 然而， 从 TensorBoard 可 
视 化 结果 中 可 以 获取 的 信息 远 不 止 图 9-2 中 所 示 的 这 些 。 这 一 节 将 详细 介绍 如 何 更 好 地 利 
用 TensorFlow 计算 图 的 可 视 化 结果 。 首 先 ，9.2.1 小 节 将 介绍 通过 TensorFlow 节点 的 命名 
空间 整理 TensorBoard 可 视 化 得 到 的 TensorFlow 计算 图 。 在 第 3 章 中 介绍 过 ，TensorFlow 
会 将 所 有 的 计算 以 图 的 形式 组 织 起 来 。TensorBoard 可 视 化 得 到 的 图 并 不 仅 是 将 TensorFlow 
计算 图 中 的 节点 和 边 直 接 可 视 化 ， 它 会 根据 每 个 TensorFlow 计算 节点 的 命名 空间 来 整理 可 
视 化 得 到 的 效果 图 ， 使 得 神经 网 络 的 整体 结构 不 会 被 过 多 的 细节 所 淹没 。 除 了 显示 
TensorFlow 计算 图 的 结构 ，TensorBoard 还 可 以 展示 TensorFlow 计算 节点 上 的 其 他 信息 。 
然后 ，9.2.2 小 节 将 详细 介绍 如 何 从 可 视 化 结果 中 获取 TensorFlow 计算 图 中 的 这 些 信 息 。 


9.2.1 命名 空间 与 TensorBoard 图 上 节点 


在 9.1 节 给 出 的 样 例 程 序 中 只 定义 了 一 个 加 法 操作 ， 然 而 从 图 9-2 中 可 以 看 到 , 将 这 个 
TensorFlow 计算 图 可 视 化 得 到 的 效果 图 上 却 有 八 个 节点 。 除 去 声明 标量 、 常 量 所 产生 的 节 
点 ， 变 量 的 初始 化 过 程 也 会 产生 新 的 计算 节点 。 更 重要 的 是 ， 这 些 节 点 的 排列 可 能 会 比较 
乱 ， 这 导致 主要 的 计算 节点 可 能 被 埋没 在 大 量 信息 量 不 大 的 节点 中 ， 使 得 可 视 化 得 到 的 效 
果 图 很 难 理解 。 比 如 在 图 9-2 中 ，TensorFlow 中 定义 的 加 法 运算 所 代表 的 节点 只 显示 在 了 
右 侧 一 个 较 小 的 区 域 ， 基 本 上 被 变量 初始 化 的 操作 所 埋没 。 可 以 想象 ， 一 个 复杂 的 神经 网 
络 模型 所 对 应 的 TensorFlow 计算 图 会 比 9,1 节 中 简单 的 向 量 加 法 样 例 程序 的 计算 图 复杂 很 
多 ， 那 么 没有 经 过 整理 得 到 的 可 视 化 效果 图 并 不 能 帮助 很 好 地 理解 神经 网 络 模型 的 结构 。 

为 了 更 好 地 组 织 可 视 化 效果 图 中 的 计算 节点 ，TensorBoard 支持 通过 TensorFlow 命名 
空间 来 整理 可 视 化 效果 图 上 的 节点 。 在 TensorBoard 的 默认 视图 中 ，TensorFlow 计算 图 中 
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同一 个 命名 空间 下 的 所 有 节点 会 被 缩 略 成 一 个 节点 ， 只 有 顶层 命 名 空间 中 的 节点 才 会 被 显 

示 在 TensorBoard 可 视 化 效果 图 上 。 在 5.3 节 中 已 经 介绍 过 变量 的 命名 空间 ， 以 及 如 何 通过 
tf.Variable_scope 图 数 管理 变量 的 命名 空间 。 除了 攻 variable_ scope 函数 ,tf.name_scope 函数 
也 提供 了 命名 空间 管理 的 功能 。 这 两 个 函数 在 大 部 分 情况 下 是 等 价 的 ， 唯 一 的 区 别 是 在 使 
用 给 get_variable 国 数 时 。 以 下 代码 简单 地 说 明了 这 两 个 函数 的 区 别 。 


import tensorflow asS tf 


with tf.variable scope ("foo"): 
# 在 命名 空间 foo 下 获取 变量 “bar”， 于 是 得 到 的 变量 名 称 为 “foo/bar”。 
a = tf.get variable("bar", [1]) 
print a.name # 输出 : foo/bar:0 


with tf.variable scope ("bar"): 
# 在 命名 空间 bar 下 获取 变量 “bar”， 于 是 得 到 的 变量 名 称 为 “bar/bar”。 此 时 变量 
# “bar/bar” 和 变量 “foo/bar” 并 不 冲突 ， 于 是 可 以 正常 运行 。 
b = tf.get variable("bar", [1]) 
print b.name # 输出 : bar/bar:0 


with tf.name scope ("a"): 
# 使 用 tf .Variable 函数 生成 变量 会 受 tf.name scope 影响 ， 于 是 这 个 变量 的 名 称 
# 为 “a/Variable”。 
a = tf.Variable([1]) 
print a.name # 输出 : a/Variable:0 


# tf.get Variable 函数 不 受 tf.name scope 函数 的 影响 ， 

# 于 是 变量 并 不 在 a 这 个 命名 空间 中 。 

a = tf.get variable("b", [1]) 

print a.name # 输出 : b:0 


with es Me: SCOPe ln 
# 因为 tf.get variable 不 受 tf.name scope 影响 ， 所 以 这 里 将 试图 获取 名 称 
# 为 “a” 的 变量 。 然 而 这 个 变量 已 经 被 声明 了 ， 于 是 这 里 会 报 重复 声明 的 错误 : 
四 A Variable bar already exists, disallowed. Did you mean 
# to set reuse=True in VarScope? Originally defined at: .. 
tfsget variable("b"”, [1]) 


通过 对 命名 空间 管理 ， 可 以 改进 9.1 节 中 疝 量 相 加 的 样 例 代码 ， 使 得 可 视 化 得 到 的 效 
末 图 更 加 清晰 。 以 下 代码 展示 了 改进 的 方法 。 


import tensorflow as tf 


# 将 输入 定义 放 入 各 自 的 命名 空间 中 ， 从 而 使 得 TensorBoard 可 以 根据 命名 空间 来 整理 可 视 化 效 
# 果 图 上 的 节点 。 


with tf.name SCcope("inpPut1l") : 
inputli = tf constant tl 0 2 0 350] names*input Ll 
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with ctf.name scope("input2"): 
input2 = tf.Variable (tf.random uniform([3]), name="input2") 
output = tf.add nl([inputl, input2], name="add") 


writer = tf.train.SummaryWriter("/path/to/log", tf.get default graph()) 

writer.close!l() 

9-3 中 显示 了 改进 后 的 可 视 化 效果 图 。 从 图 中 可 以 看 到 ， 图 9-2 中 很 多 的 节点 都 被 
缩 略 到 了 图 9-3 中 的 input2 节点 。 这 样 TensorFlow 程序 中 定义 的 加 法 运算 被 清晰 地 展示 了 
出 来 。 需 要 查看 input2 节点 中 具体 包含 了 哪些 运算 时 ， 可 以 将 鼠标 移动 到 input2 节点 ， 并 
点 开 右 上 和 角 的 加 号 “+”“。 图 9-4 显示 了 展开 input2 节点 之 后 的 视图 。 


pe 


| input2 | 





图 9-3 ”改进 后 向 量 加 法 程序 TensorFlow 计算 图 的 可 视 化 效果 图 


input2 


rordomy.. “一 input2 = ct 





图 9-4 展开 input2 节点 的 可 视 化 效果 图 


在 input2 的 展开 图 中 可 以 看 到 图 9-2 中 数据 初始 化 相关 的 操作 都 被 整理 到 了 一 起 。 下 
面 将 给 出 一 个 样 例 程序 来 展示 如 何 很 好 地 可 视 化 一 个 真实 的 神经 网 络 结构 图 。 本 节 将 继续 
采用 5.5 节 中 给 出 的 架构 ， 以 下 代码 给 出 了 改造 后 的 mnist_train.py 程序 。 


中 “+” 号 会 在 鼠标 移动 到 这 个 节点 时 显示 在 节点 的 右上 角 。 
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import tensorflow as tf 

from tensorflow.examples.tutorials.mnist import input data 

# mnist inference 中 定义 的 常量 和 前 向 传播 的 函数 不 需要 改变 ， 因 为 前 向 传播 已 经 通过 
# tf.variable_scope 实现 了 计算 节点 按照 网 络 结构 的 划分 。 


import mnist inference 


INPUT NODE = 784 
OUTPUT NODE = 10 
LAYER1 NODE = 500 


def train(mnist): 
# 将 处 理 输入 数据 的 计算 都 放 在 名 字 为 “input” 的 命名 空间 下 。 
with tf.name scope('input'): 
x = tf.placeholder( ， 
tf.float32, [None, mnist inference.INPUT NODE], name='x-input') 
y. = tf.placeholder'( 
tf.float32, [None, mnist inference.OUTPUT NODE], 
name='y-cinput') 


regularizer = tf.contrib.]layers.12 regularizer (REGULARAZTION RATE) 
Y = mnist inference.inference(x, regularizer) 
global step = tf.Variable(0, trainable=False) 


# 将 处 理 滑动 平均 相关 的 计算 都 放 在 名 为 moving_ average 的 命名 空间 下 。 
with tf.name scope ("moving average"): 
variable averages = tf.train.ExponentialMovingAverage( 
MOVING AVERAGE DECAY, global step) 
variables averages op = variable averages.applyl( 
tf.trainable variables ()) 


# 将 计算 损失 函数 相关 的 计算 都 放 在 名 为 oss function 的 命名 空间 下 。 
with tf.name scope ("loss function"): 
cross entropy = tf.nn.sparse softmax cross entropy with'logits'( 
Y tf.argmax (ly , 1)) 
Cross entropy mean = tf.reduce meanl(cross entropy) 
loss = cross entropy mean + tf.add nl(tf.get collection('losses')) 


# 将 定义 学 习 率 、 优 化 方法 以 及 每 一 轮训 练 需要 执行 的 操作 都 放 在 名 字 为 “train step” 
# 的 命名 空间 下 。 
with tf.name scope ("train step"): 
learning rate = tf.train.exponential decay ( 
LEARNING RATE BASE, 
global step, 
mnist.train.num examples / BATCH SIZE, 
LEARNING RATE DECAY, 
staircase=True) 
train step = tf.train.GradientDescentOptimizer (learning rate)\ 
-minimize(loss, global step=global step) 


233 


ww ai bbt.com DODODDDDDC 





TensorFlow: 实战 Google 深度 学 习 框 架 


with tf.control dependencies ( [train_ step, variables averages op]): 
train op = tf.no op (name='train') 


# 使 用 和 5.5 节 中 一 样 的 方式 训练 神经 网 络 。 


# 将 当前 的 计算 图 输出 到 TensorBoard 日 志文 件 。 


writer = tf.train.SummaryWriter("/path/to/log", tf.get default graph()) 
writer.close!() 


def main (argv=None): 
mnist = input data.read data sets("/tmp/data", one hot=True) 
train (mnist) 


Lf Mam = MAlNe = 

tf.app.run\() 

相 比 5.5 节 中 给 出 的 mnist train.py 程序 ， 上 面 程序 最 大 的 改变 就 是 将 完成 类 似 功能 的 
计算 放 到 了 由 tfname_scope 函数 生成 的 上 下 文 管理 器 中 。 这 样 TensorBoard 可 以 将 这 些 节 
点 有 效 地 合并 , 从 而 突出 神经 网 络 的 整体 结构 。 因 为 在 mnist_inferenece.py 程序 中 已 经 使 用 
了 萎 variable_ scope 来 管理 变量 的 命名 空间 ， 所 以 这 里 不 需要 再 做 调整 。 图 9-5 展示 了 新 的 
MNIST 程序 的 TensorFlow 计算 图 可 视 化 得 到 的 效果 图 。 
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9-5 ”改进 后 的 MNIST 样 例 程序 TensorFlow 计算 图 可 视 化 效果 图 


从 图 9-5 中 可 以 看 到 ，TensorBoard 可 视 化 效果 图 很 好 的 展示 了 整个 神经 网 络 的 结构 。 
在 图 9-5 中 ，input 节点 代表 了 训练 神经 网 络 需 要 的 输入 数据 ， 这 些 输入 数据 会 提供 给 神经 
网 络 的 第 一 层 layerl .然后 神经 网 络 第 一 层 layerl 的 结果 会 被 传 到 第 二 层 layer2, 进 过 layer2 
的 计算 得 到 前 向 传播 的 结果 。loss_function 节点 表示 计算 损失 函数 的 过 程 , 这 个 过 程 既 依赖 
于 前 向 传播 的 结果 来 计算 交叉 烂 (layer2 到 loss_ function 的 边 )， 又 依赖 于 每 一 层 中 所 定义 
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的 变量 来 计算 L2 正则 化 损失 (layerl 和 layer2 到 loss_function 的 边 )。]oss_function 的 计算 
结果 会 提供 给 神经 网 络 的 优化 过 程 ， 也 就 是 图 中 train_step 所 代表 的 节点 。 综 上 所 述 ， 通 过 
TensorBoard 可 视 化 得 到 的 效果 图 可 以 对 整个 神经 网 络 的 网 络 结构 有 一 个 大 致 了 解 。 

在 图 9-5 中 可 以 发 现 节点 之 间 有 两 种 不 同 的 边 。 一 种 边 是 通过 实 线 表示 的 ， 这 种 边 刻 
画 了 数据 传输 ， 边 上 箭头 方向 表达 了 数据 传输 的 方向 。 比 如 layerl 和 layer2 之 间 的 边 表示 
了 layerl 的 输出 将 会 作为 layer2 的 输入 。 有 些 边 上 的 箭头 是 双向 的 ， 比 如 节点 Variable 和 
train step 之 间 的 边 。 这 表明 train_step 会 修改 Variable 的 状态 , 在 这 里 也 就 是 表明 训练 过 程 
会 修改 记录 训练 迭代 轮 数 的 变量 ”， 

TensorBoard 可 视 化 效果 图 的 边 上 还 标注 了 张 量 的 维度 信息 。 图 9-6 放大 了 可 视 化 得 到 
的 效果 图 ， 从 图 中 可 以 看 出 ， 节 点 input 和 layerl 之 间 传 输 的 张 量 的 维度 为 100x784。 这 说 
明了 训练 时 提供 的 batch 大 小 为 100， 输 入 层 节 点 的 个 数 为 784。 当 两 个 节点 之 间 传 输 的 张 
量 多 于 1 个 时 , 可 视 化 效果 图 上 将 只 显示 张 量 的 个 数 。 效果 图 上 边 的 粗细 表示 的 是 两 个 节点 
之 间 和 传输 的 标量 维度 的 总 大 小 ， 而 不 是 传输 的 标量 个 数 。 比 如 layer2 和 loss_ function 之 间 虽 
然 传输 了 两 个 张 量 ， 但 其 维度 都 比较 小 ， 所 以 这 条 边 比 layerl 和 layer2 之 间 的 边 还 要 组 。 
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9-6 TensorBoard 可 视 化 效果 图 中 边 上 信息 


TensorBoard 可 视 化 效果 图 上 另外 一 种 边 是 通过 虚线 表示 的 ， 比 如 图 9-5 中 所 示 的 
moving _ average 和 rain_step 之 间 的 边 。 虚 边 表达 了 计算 之 间 的 依赖 关系 ， 比 如 在 程序 中 ， 
通过 tfcontrol dependencies 函数 指定 了 更 新 参数 滑动 平 均值 的 操作 和 通过 反 向 传播 更 新 变 
量 的 操作 需要 同时 进行 ， 于 是 moving _ average 与 train_step 之 间 存 在 一 条 虚 边 。 

除了 手动 的 通过 TensorFlow 中 的 命名 空间 来 调整 TensorBoard 的 可 视 化 效果 图 ， 
TensorBoard 也 会 智能 地 调整 可 视 化 效果 图 上 的 节点 。TensorFlow 中 部 分 计算 节点 会 有 比较 


外 注意 这 里 “Variable” 表 示 名 称 为 Variable 的 变量 ， 而 不 是 所 有 神经 网 络 中 的 参数 。 在 样 例 程序 中 ， 名 
称 为 Variable 的 变量 是 存储 训练 迭代 轮 数 的 变量 。 
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多 的 依赖 关系 ， 如 果 全 部 画 在 一 张 图 上 会 使 可 视 化 得 到 的 效果 图 非常 拥挤 。 于 是 
TensorBoard 将 TensorFlow 计算 图 分 成 了 主 图 (Main Graph) 和 辅助 图 (Auxiliary nodes) 
两 个 部 分 来 呈现 。 在 图 9-5 中 ， 左 侧 展示 的 是 计算 图 的 主要 部 分 ， 也 惑 是 主 图 ; 右 侧 展示 
的 是 一 些 单独 列 出 来 的 节点 ， 也 就 是 辅助 图 。TensorBoard 会 自动 将 连接 比较 多 的 节点 放 在 
辅助 图 中 ， 使 得 主 图 的 结构 更 加 清晰 。 

除了 目 动 的 方式 ，TensorBoard 也 支持 手工 的 方式 来 调整 可 视 化 结果 。 如 图 9-7 所 示 ， 
右键 单 击 可 视 化 效果 图 上 的 节点 会 弹出 一 个 选项 ， 这 个 选项 可 以 将 节点 加 入 主 图 或 者 从 主 
图 中 删除 。 左 键 选择 一 个 节点 并 点 击 信息 框 下 部 的 选项 也 可 以 完成 类 似 的 功能 。 图 9-8 展 
示 了 将 train_step 节点 从 主 图 中 移出 后 的 效果 ， 图 9-9 展示 了 将 Variable 节点 移入 主 图 后 的 
效果 。 注意 TensorBoard 不 会 保存 用 户 对 计算 图 可 视 化 结果 的 手工 修改 , 页 面 刷新 之 后 计算 
图 可 视 化 结果 又 会 回 到 最 初 的 样子 。 





(b) 手工 将 TensorFlow 计算 图 可 视 化 效果 图 中 节点 加 入 主 图 
9-7 手工 将 TensorFlow 计算 图 可 视 化 效果 图 中 节点 加 入 /移出 主 图 
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9-9 将 Variable 节点 移入 主 图 后 的 效果 图 


9.2.2 节点 信息 


除了 展示 TensorFlow 计算 图 的 结构 ，TensorBoard 还 可 以 展示 TensorFlow 计算 图 上 每 
个 节点 的 基本 信息 以 及 运行 时 消耗 的 时 间 和 空间 。 本 小 节 将 进一步 讲解 如 何 通 过 
TensorBoard 展现 TensorFlow 计算 图 节点 上 的 这 些 信息 。TensorFlow 计算 节点 的 运行 时 间 
都 是 非常 有 用 的 信息 ， 它 可 以 帮助 更 加 有 针对 性 地 优化 TensorFlow 程序 ， 使 得 整个 程序 的 
运行 速度 更 快 。 使 用 TensorBoard 可 以 非常 直观 地 展现 所 有 TensorFlow 计算 节点 在 某 一 次 
运行 时 所 消耗 的 时 间 和 内 存 。 将 以 下 代码 加 入 9.2.1 小 节 中 修改 后 的 mnist train.py 神经 网 
络 训练 部 分 ， 就 可 以 将 不 同 迭 代 轮 数 时 每 一 个 TensorFlow 计算 节点 的 运行 时 间 和 消耗 的 内 
存 写 入 TensorBoard 的 日 志文 件 中 。 


with tf.Session() as sess: 
tf.initialize all Variables() .run() 
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for i In range(TRRAINING_STEPS) : 
XS，YS = mnist.train.next batch (BATCH SIZE) 


# 每 1000 轮 记录 一 次 运行 状态 。 
if i 各 1000 == 0: 
# 配置 运行 时 需要 记录 的 信息 。 
run options = tf.RunOptions ( 
trace level=tf.RunOptions.FULL TRACE) 
# 运行 时 记录 运行 信息 的 proto。 
run metadata = tf.RunMetadata() 
# 将 配置 信息 和 记录 运行 信息 的 proto 传 入 运行 的 过 程 , 从 而 记录 运行 时 每 一 个 
# 节点 的 时 间 、 空 间 开 销 信息 。 
_7 loss Value step = sess.run ll 
[train op, loss, global step], feed dict={x: xs, y : ys}, 
options=run options, run metadata=run metadata) 
# 将 节点 在 运行 时 的 信息 写 入 日 志文 件 。 
train writer.add run metadatal(run metadata, 'step%03d" % 1) 
print("After %d training step(s), loss on training batch " 
"is %g." $$ (step, loss value)) 
else: 


_7 loss value, step = sess.runl 
[train op, loss, global step], feed dict={x: xs, y_: ys}) 


运行 以 上 程序 ， 并 使 用 这 个 程序 输出 的 日 志 启 动 TensorBoard， 就 可 以 可 视 化 每 个 
TensorFlow 计算 节点 在 某 一 次 运行 时 所 消耗 的 时 间 和 空间 了 。 进 入 GRAPHS 栏 后 ， 需 要 先 
选择 一 次 运行 来 查看 。 如 图 9-10(a) 所 示 ， 点 击 页 面 左 侧 的 Session runs 选项 会 出 现 一 个 下 
拉 单 ， 在 这 个 下 拉 单 中 会 出 现 所 有 通过 train writeradd run metadata 函数 记录 的 运行 数据 。 
如 图 9-10 (b) 所 示 ， 选择 一 次 运行 后 ，TensorBoard 左 侧 的 Color 栏 中 将 会 新 出 现 Compute 
time 和 Memory 这 两 个 选项 。 
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(a) 选择 运行 记录 的 页 面 (b) 选择 完 运行 记录 后 Color 栏 多 出 来 的 选项 
图 9-10 TensorBoard 运行 记录 选择 界面 
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在 Color 栏 中 选择 Compute time 可 以 看 到 在 这 次 运行 中 每 个 TensorFlow 计算 节点 的 运 
行 时 间 。 类 似 的 ， 选 择 Memory 可 以 看 到 这 炊 运 行 中 每 个 TensorFlow 计算 节点 所 消耗 的 内 
存 。 图 9-11 展示 了 在 第 10000 轮 迷 代 时 ,不同 TensorFlow 计算 节点 时 间 消 耗 的 可 视 化 效果 
图 。 图 中 颜色 越 深 的 节点 表示 时 间 消 耗 越 大 。 从 图 9-11 中 可 以 看 出 ， 代 表 训 练 神经 网 络 的 
train_ step 节点 消耗 的 时 间 是 最 多 的 。 通 过 对 每 一 个 计算 节点 消耗 时 间 的 可 视 化 ， 可 以 很 容 
易 地 找到 TensorFlow 计算 图 上 的 性 能 瓶颈 , 这 大 大 方便 了 算法 优化 的 工作 。 在 性 能 调 优 时 ， 
一 般 会 选择 欠 代 轮 数 较 大 时 的 数据 比如 图 9-11 中 第 10000 轮 和 迭代 时 的 数据 ) 作为 不 同 计 
算 节 点 时 间 / 空 间 消 耗 的 标准 ， 因 为 这 样 可 以 减少 TenserFlow 初始 化 对 性 能 的 影响 。 
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9-11 第 10000 轮 迁 代 时 不 同 TensorFlow 计算 节点 时 间 消 耗 的 可 视 化 效果 图 


在 TensorBoard 界面 左 侧 的 Color 栏 中 ， 除 了 Compute time 和 Memory， 还 有 Structure 
和 Device 两 个 选项 。 在 图 9-3 到 图 9-9 中 ， 展 示 的 可 视 化 效果 图 都 是 使 用 默认 的 Structure 
选项 。 在 这 个 视图 中 ， 灰 色 的 节点 表示 没有 其 他 节点 和 它 拥 有 相同 结构 。 如 果 有 两 个 节点 
的 结构 相同 ， 那 么 它们 会 被 涂 上 相同 的 颜色 。 图 9-12 展示 了 一 个 拥有 相同 结构 节点 的 卷 积 
神经 网 络 可 视 化 得 到 的 效果 图 。 在 图 9-12 中 ， 两 个 卷 积 层 的 结构 是 一 样 的 ， 所 以 他 们 都 被 
涂 上 了 相同 的 颜色 。 最后，Color 栏 还 可 以 选择 Device 选项 ,这 个 选项 可 以 根据 TensorFlow 
计算 节点 运行 的 机 器 给 可 视 化 效果 图 上 的 节点 染色 。 在 使 用 GPU 时 ， 可 以 通过 这 种 方式 直 
观 地 看 到 哪些 计算 节点 被 放 到 了 GPU 上 。 图 9-13 给 出 了 一 个 使 用 了 GPU 的 TensorFlow 
计算 图 的 可 视 化 结果 。 图 9-13 中 深 灰 色 的 节点 表示 对 应 的 计算 放 在 了 GPU 上 ， 浅 灰色 的 
节点 表示 对 应 的 计算 放 在 了 CPU 上 。 上 有 具体 如 何 使 用 GPU 将 在 第 10 章 介 绍 。 
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9-13 ”使 用 了 GPU 的 TensorFlow 计算 图 的 可 视 化 结果 


当 点 击 TensorBoard 可 视 化 效果 图 中 的 节点 时 ,界面 的 右上 和 角 会 弹出 一 个 信息 卡片 显示 
这 个 节点 的 基本 信息 。 如 图 9-14 所 示 ， 当 点 击 的 节点 为 一 个 命名 空间 时 ，TensorBoard 展 
示 的 信息 有 这 个 命名 空间 内 所 有 计算 节点 的 输入 、 输 出 以 及 依赖 关系 。 虽 然 属 性 
(Attriubtes) 也 会 展示 在 卡片 中 , 但 是 在 代表 命名 空间 的 属性 下 不 会 有 任何 内 容 。 当 Session 
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runs 选择 了 茶 一 次 运行 时 ， 节 点 的 信息 卡片 上 也 会 出 现 这 个 节点 运行 时 所 消耗 的 时 间 和 内 
存 等 信息 。 
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9-14 TensorFlow 命名 空间 在 TensorBoard 可 视 化 效果 图 上 的 信息 卡片 


当 点 击 的 TensorBoard 可 视 化 效果 图 上 的 节点 对 应 一 个 TensorFlow 计算 节点 时 ， 
TensorBoard 也 会 展示 类 似 的 信息 。 图 9-15 展示 了 一 个 TensorFlow 计算 节点 所 对 应 的 信息 
卡片 。 在 TensorBoard 页 面 中 ， 空 心 的 小 椭圆 对 应 了 TensorFlow 计算 图 上 的 一 个 计算 节点 ， 
而 一 个 矩形 对 应 了 计算 图 上 的 一 个 命名 空间 。TensorFlow 计算 节点 所 对 应 的 信息 卡片 中 的 
内 容 和 命名 空间 信息 卡片 相似 ， 只 是 TensorBoard 可 以 将 TensorFlow 计算 节点 的 属性 也 展 
示 出 来 。 例 如 在 图 9-15 中 ， 属 性 栏 下 显示 了 选中 的 计算 节点 是 在 什么 设备 上 运行 的 ， 以 及 
运行 这 个 计算 时 的 两 个 参数 。 


Tomyo to 





9-15 TensorFlow 计算 节点 在 TensorBoard 可 视 化 效果 图 上 的 信息 卡片 
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9.3 ”监控 指标 可 钢化 


在 9.2 节 中 着 重 介 绍 了 通过 TensorBoard 的 GRAPHS 栏 可 视 化 TensorFlow 计算 图 的 结 
构 以 及 在 计算 图 上 的 信息 。TensorBoard 除了 可 以 可 视 化 TensorFlow 的 计算 图 ， 还 可 以 可 
视 化 TensorFlow 程序 运行 过 程 中 各 种 有 助 于 了 解 程序 运行 状态 的 监控 指标 。 在 本 节 中 将 介 
绍 如 何 利用 TensorBoard 中 其 他 栏目 可 视 化 这 些 监控 指标 。 除 了 GRAPHS 栏 ，TensorBoard 
界面 中 还 提供 了 EVENTS、IMAGES、AUDIO 和 HISTOGRAMS 四 个 栏目 来 可 视 化 其 他 的 
监控 指标 。 下 面 的 程序 展示 了 如 何 将 TensorFlow 程序 运行 时 的 信息 输出 到 TensorBoard 日 
志文 件 中 。 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


SUMMARY DIR = "/path/to/1l0og" 
BATCH SIZE = 100 
TRAIN STEPS = 30000 


# 生成 变量 监控 信息 并 定义 生成 监控 信息 日 志 的 操作 。 其 中 var 给 出 了 需要 记录 的 张 量 ，name 给 
# 出 了 在 可 视 化 结果 中 显示 的 图 表 名 称 ， 这 个 名 称 一 般 与 变量 名 一 致 。 
def variable summaries (var, name): 
# 将 生成 监控 信息 的 操作 放 到 同一 个 命名 空间 下 。 
with tf.name scope('summaries'): 
# 通过 tf.histogram summary 函数 记录 张 量 中 元 素 的 取 值 分 布 。 对 于 给 出 的 图 表 名 称 
# 和 张 量 ，tf.histogram summary 函数 会 生成 一 个 Summary protocol buffer。 
# 将 Summary 写 入 TensorBoard 日 志文 件 后 ， 可 以 在 HISTOGRAMS 栏 下 看 到 对 应 名 
# 称 的 图 表 。 图 9-20 给 出 了 一 个 可 视 化 结果 效果 图 。 和 TensorFlow 中 其 他 操作 类 似 ， 
# tf.histogram summary 函数 不 会 立刻 被 执行 ， 只 有 当 sess .run 函数 明确 调用 这 
# 个 操作 时 ，TensorFlow 才 会 真正 生成 并 输出 Summary protocol buffer。 
tf.histogram summary (name, var) 


# 计算 变量 的 平均 值 ， 并 定义 生成 平均 值 信息 日 志 的 操作 。 记 录 变量 平均 值 信 息 的 日 志 标 签名 
# 为 'mean/' + name， 其 中 mean 为 命名 空间 ，/ 是 命名 空间 的 分 隔 符 。 从 图 .9-17 

# 中 可 以 看 到 , 在 相同 命名 空间 中 的 监控 指标 会 被 整合 到 同一 栏 中 。 name 则 给 出 了 当前 监 
# 控 指 标 属于 哪 一 个 变量 。 

mean = tf.reduce mean (Var) 

tf.scalar summary ('mean/' + name, mean) 

# 计算 变量 的 标准 差 ， 并 定义 生成 其 日 志 的 操作 。 

stddev = tf.sqrt(tf.reduce mean(tf.square (Var 一 mean))) 

tf.scalar summary('stddev/' + name, stddev) 


# 生成 一 层 全 链接 层 神经 网 络 。 
def nn layer (input tensor, input dim, output dim, 
layer name, act=tf.nn. relu): 
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# 将 同一 层 神经 网 络 放 在 一 个 统一 的 命名 空间 下 。 
with tf.name SCcope (Layer_ name) : 
上 # 声明 神经 网 络 边 上 的 权重 ， 并 调用 生成 权重 监控 信息 日 志 的 函数 。 
with tf.name scope('weights'): 
weights = tf.Variable (tf.truncated normal( 
[input dim, output dim], stddev=0.1)) 
variable summaries (weights, layer name + '/weights'!) 


# 声明 神经 网 络 的 偏 置 项 ， 并 调用 生成 偏 置 项 监控 信息 日 志 的 函数 。 

with tf.name scope('biases'): 
biases = tf.Variable(tf.constant (0.0, shape=[output dim])) 
variable summaries (biases, layer name + '/biases') 


with tf.name scope(l'Wx plus b'): 
preactivate = tf.matmul (input tensor, weights) + biases 
# 记录 神经 网 络 输出 节点 在 经 过 激活 函数 之 前 的 分 布 。 
tf.histogram summary (layer name + '/pre activations', 
preactivate) 
“activations = act (preactivate, name='activation') 


# 记录 神经 网 络 输出 节点 在 经 过 激活 函数 之 后 的 分 布 。 在 图 9-20 中 ， 对 于 layerl， 
# 为 使 用 了 ReLU 函数 作为 激活 函数 ， 所 以 所 有 小 于 0 的 值 都 被 设 为 了 0。 于 是 在 激活 后 
# 的 layer1l/activations 图 上 所 有 的 值 都 是 大 于 0 的 。 而 对 于 layer2， 因 为 没有 使 
# 用 激活 函数 ， 所 以 layer2/activations 和 layer2/pre activations 一 样 。 
tf.histogram summary (layer name + '/activations', activations) 
return activations 


def main( ): 
mnist = input data.read data sets("/tmp/data", one hot=True) 
# 定义 输入 。 
with tf.name scope('input"'): 
x = tf.placeholder (tf.float32, [None, 784], name='x-input') 
y_ = tf.placeholder (tf.float32, [None, 10], name='y-input') 


# 将 输入 向 量 还 原 成 图 片 的 像素 和 矩阵， 并 通过 tf .image _summary 函数 定义 将 当前 的 图 片 信 
# 息 写 入 日 志 的 操作 。 
with tf.name scope('input reshape'): 

image shaped input = tf.reshape (x, [-l1, 28, 28, 1])) 

tf.image summary('input', image shaped input, 10) 


hiddenl1 = nn layer (x, 784, 500, 'layerl') 
Y = nn layer(hiddenl, 500, 10, 'layer2', act=tf.identity) 


# 计算 交叉 炉 并 定义 生成 交叉 焙 监控 日 志 的 操作 。 


with tf.name scopel('cross entropy'): 
cross entropy = tf.reduce mean 
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tf.nn.softmax cross entropy with logits(y, Y_) ) 
tf.scalar summary('cross entropy', cross entropy) 


with tf.name scope('train'): 
train step = tf.train.AdamOptimizer (0.001) .minimize (cross entropy) 


# 计算 模型 在 当前 给 定数 据 上 的 正确 率 , 并 定义 生成 正确 率 监控 日 志 的 操作 。 如 果 在 sess .run 
# 时 给 定 的 数据 是 训练 batch， 那 么 得 到 的 正确 率 就 是 在 这 个 训练 batch 上 的 正确 率 ; 如 果 
# 给 定 的 数据 为 验证 或 者 测试 数据 ， 那 么 得 到 的 正确 率 就 是 在 当前 模型 在 验证 或 者 测试 数据 上 
# 的 正确 率 。 
with tf.name scope('accuracy'): 
with tf.name scope('correct prediction'): 
correct prediction = tf.equal (tf.argmax(y, 1), tf.argmax (ly _, 1)) 
with tf.name scope('accuracy'): 
accuracy = tf.reduce mean ( 
tf.cast(correct prediction, tf.float32)) 
tf.scalar summary('accuracy', accuracy) 


# 和 TensorFlow 中 其 他 操作 类 似 ， tf.scalar summary、 tf.histogram summary 

# 和 tf.image _summary 函数 都 不 会 立即 执行 ， 需 要 通过 sess .run 来 明确 调用 这 些 函 数 。 
# 因为 程序 中 定义 的 写 日 志 操 作 比 较 多 ， 一 一 调用 非常 麻烦 ， 所 以 TensorFlow 提供 了 

# tf.merge all summaries 函数 来 整理 所 有 的 日 志 生 成 操作 。 在 TensorFlow 程序 执行 
# 的 过 程 中 只 需要 运行 这 个 操作 就 可 以 将 代码 中 定义 的 所 有 日 志 生 成 操作 执行 一 次 ， 从 而 将 所 
# 有 日 志 写 入 文件 。 


merged = tf.merge all summaries () 


with tf.Session() as sess: 
# 初始 化 写 日 志 的 writer， 并 将 当前 TensorFlow 计算 图 写 入 日 志 。 
summary writer = tf.train.SummaryWriter (SUMMARY DIR, sess.graph) 
tf.initialize all variables () .run() 


for i in A STEPS) : 
= mnist.train.next batch (BATCH SIZE) 
运行 训练 步骤 以 及 所 有 的 日 志 志 生 成 操作 ， 得 到 这 次 运行 的 日 志 。 
summary, = sess.runl([merged, train stepl, 
feed dict={x: xs, Y” 


# 将 所 有 日 志 写 入 文件 , TensorBoard 程序 就 可 以 全 这 次 运行 所 对 应 的 运 运行 信息 。 
summary writer.add summary (summary, i) 


summary writer.close() 


i "namer m= nalin 
tf.app.run() 


从 上 面 的 程序 可 以 看 出 ， 除 了 GRAPHS 之 外 ，Tensorboard 中 的 每 一 栏 对 应 了 
TensorFlow 中 一 种 日 志 生 成 函数 ， 表 9-1 总 结 了 这 个 对 应 关系 。 
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表 9-1 TensorFlow 日 志 生 成 函数 与 TensorBoard 界面 栏 对 应 关系 。 


TensorFlow 日 志 生 成 函数 


tf.scalar_summary EVENTS TensorFlow 中 标量 (scalar) 监控 数据 随 着 从 代 进行 的 变化 趋势 。 图 9-18 
中 展示 了 当前 模型 在 训练 bacth 上 的 正确 率 随 着 迭代 进行 的 变化 趋势 ， 


TensorFlow 中 使 用 的 图 片 数 据 。 这 一 栏 一 般 用 于 可 视 化 当前 使 用 的 训练 
/测试 图 片 。 图 9-19 中 展示 了 例 程序 在 最 后 一 轮训 练 时 使 用 的 图 片 。 

tfhistogram_ summary HISTOGRAMS TensorFlow 中 张 量 分 布 监控 数据 随 着 友 代 轮 数 的 变化 趋势 。 图 9-20 中 

Fa 可 展示 了 神经 网 络 参数 取 值 分 布 随 着 选 代 进 行 的 变化 趋势。 
运行 上 面 的 样 例 程 序 并 使 用 9.1 节 中 介绍 的 方式 启动 TensorBoard， 可 以 看 到 如 图 9-16 

所 示 的 界面 。 在 这 个 页 面 上 有 4 组 不 同 的 监控 指标 ， 这 些 指 标 都 是 样 例 程序 中 通过 
tf.scalar_summary 汞 数 生 成 的 。 和 变量 的 命名 空间 类 似 ，TensorBoard 也 会 根据 监控 指标 的 
名 称 进行 分 组 。 从 图 9-17 中 可 以 看 到 ， 名 称 为 mean 的 栏目 下 有 4 组 不 同 的 监 挖 指标。 这 
4 个 不 同 的 指标 都 以 mean 开头 ， 并 通过 和 斜 线 “/” 划 分 不 同 的 命名 空间 。 不 过 和 TensorFlow 
计算 图 可 视 化 结果 不 同 的 是 ，EVENTS 栏 只 会 对 最 高 层 的 命名 空间 进行 整合 ， 单 击 展开 后 
将 看 到 该 命名 空间 下 的 所 有 监控 指标 。 
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9-17 展开 标量 监控 页 面 中 的 监控 内 容 后 得 到 的 页 面 
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在 每 一 个 监控 指标 的 左下 角 有 一 个 小 方 框 < 2 ”% 单 击 这 个 方 框 可 以 得 到 放大 后 的 图 片 。 
放大 后 的 效果 如 图 9-18 所 示 。 再 单 击 一 次 这 个 小 方 框 可 以 将 放大 后 的 图 表 缩 小 。 在 训练 神 
经 网 络 时 ， 通 过 TensorBoard 监控 神经 网 络 中 变量 取 值 的 变化 、 模 型 在 训练 batch 上 的 损失 
图 数 大 小 以 及 学 习 率 的 变化 等 信息 可 以 更 加 方便 地 掌握 模型 的 训练 情况 。 





图 9-18 ”展开 某 一 项 监控 标量 时 的 放大 图 


图 9-19 展示 了 通过 TensorBoard 可 视 化 当前 轮训 练 使 用 的 图 像 信 息 。 通 过 这 个 界面 可 
以 大 致 看 出 数据 随机 打 乱 的 效果 。 因 为 TensorFlow 程序 和 TensorBoard 可 视 化 界面 可 以 同 
时 运行 ， 所 以 从 TensorBoard 上 可 以 实时 看 到 TensorFlow 程序 中 最 新 使 用 的 训练 或 者 测试 
图 像 。 





9-19 通过 TensorBoard 可 视 化 训练 图 像 
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TensorBoard 最 后 一 栏 提 供 了 对 张 量 取 值 分 布 的 可 视 化 界面 。 通过 这 个 界面 ， 可 以 直观 
地 观察 到 不 同 层 神 经 网 络 中 参数 的 取 值 变化 。 





9-20 通过 TensorBoard 可 视 化 张 量 取 值 分 布 效果 图 


小 结 


在 本 章 中 介绍 了 TensorFlow 的 可 视 化 工具 TensorBoard。TensorBoard 是 TensorFlow 自 
带 的 工具 ,不 需要 额外 的 安装 过 程 。 虽然 TensorBoard 和 TensorFlow 运行 在 不 同 的 进程 中 ， 
但 是 TensorBoard 会 实时 读 取 TensorFlow 程序 输出 的 日 志文 件 从 而 获取 最 新 的 TensorFlow 
程序 运行 状态 。 通 过 TensorBoard， 一 方面 可 以 更 好 地 了 解 TensorFlow 计算 图 的 结构 以 及 
每 个 TensorFlow 计算 节点 在 运行 时 的 时 间 、 内 存 消耗 。 男 一 方面 也 可 以 通过 TensorBoard 
可 视 化 神经 网 络 模型 训练 过 程 中 各 种 指标 的 变化 趋势 ， 直 观 地 了 解 神经 网 络 的 训练 情况 。 
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在 前 面 的 章节 中 介绍 了 使 用 TensorFlow 实现 各 种 深度 学 习 的 算法 。 然 而 要 将 深度 学 习 
应 用 到 实际 问题 中 ， 一 个 非常 大 的 问题 在 于 训练 深度 学 习 模 型 需要 的 计算 量 太 大 。 比 如 要 
将 第 6 章 中 介绍 的 Inception-v3 模型 在 单机 上 训练 到 78% 的 正确 率 需 要 将 近 半 年 的 时 间 ”， 
这 样 的 训练 速度 是 完全 无 法 应 用 到 实际 生产 中 的 。 为 了 加 速 训练 过 程 ， 本 章 将 介绍 如 何 通 
过 TensorFlow 利用 GPU 或 /和 分 布 式 计算 进行 模型 训练 。 

首先 ， 在 10.1 节 中 将 介绍 如 何在 TensorFlow 中 使 用 单个 GPU 进行 计算 加 速 ， 也 将 介 
绍 生 成 TensorFlow 会 话 〈tf.Session) 时 的 一 些 常 用 参数 。 通 过 这 些 参数 可 以 使 调试 更 加 方 
便 而 且 程 序 的 可 扩展 性 更 好 。 然 而 ， 在 很 多 情况 下 ， 单 个 GPU 的 加 速效 率 无 法 满足 训练 大 
型 深度 学 习 模 型 的 计算 量 需 求 ， 这 时 将 需要 利用 更 多 的 计算 资源 。 为 了 同时 利用 多 个 GPU 
或 者 多 台 机 器 ，10.2 节 中 将 介绍 训练 深度 学 习 模 型 的 并 行 方式 。 然 后 ，10.3 市 将 介绍 如 何 
在 一 台 机 器 的 多 个 GPU 上 并 行 化 地 训练 深度 学 习 模 型 。 在 这 一 节 中 也 将 给 出 具体 的 
TensorFlow 样 例 程序 来 使 用 多 GPU 训练 模型 ， 并 比较 并 行 化 效率 提升 的 比率 。 最 后 在 10.4 
节 中 将 介绍 分 布 式 TensorFlow， 以 及 如 何 通 过 分 布 式 TensorFlow 训练 深度 学 习 模型 。 在 这 
一 节 中 将 给 出 具体 的 TensorFlow 样 例 程 序 来 实现 不 同 的 分 布 式 深度 学 习 训练 模式 。 虽 然 
TensorFlow 可 以 支持 分 布 式 深度 学 习 模 型 训练 ， 但 是 它 并 不 提供 集群 创建 、 管 理 等 功能 。 
为 了 更 方便 地 使 用 分 布 式 TensorFlow，10.4 节 中 将 介绍 才 云 科技 基于 Kubermetes 容器 云 平 
台 搭 建 的 分 布 式 TensorFlow 系统 。 


10.1 TensorFlow 使 用 GPU 
TensorFlow 程序 可 以 通过 tf.device 函数 来 指定 运行 每 一 个 操作 的 设备 ， 这 个 设备 可 以 


@ 数字 出 自 谷歌 官方 技术 博客 https://research.googleblog.com/2016/04/announcing-tensorflow-08-now-with.html。 
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是 本 地 的 CPU 或 者 GPU， 也 可 以 是 某 一 台 远 程 的 服务 器 。 但 在 本 节 中 只 关心 本 地 的 设备 。 
TensorFlow 会 给 每 一 个 可 用 的 设备 一 个 名 称 ， 姨 device 函数 可 以 通过 设备 的 名 称 来 指定 执 
行 运算 的 设备 。 比 如 CPU 在 TensorFlow 中 的 名 称 为 /cpu:0。 在 默认 情况 下 ， 即 使 机 器 有 多 
个 CPU，TensorFlow 也 不 会 区 分 它们 ， 所 有 的 CPU 都 使 用 /cpu:0 作为 名 称 。 而 一 台 机 器 上 
不 同 GPU 的 名 称 是 不 同 的 , 第 nn 个 GPU 在 TensorFlow 中 的 名 称 为 /gpu:n。 比 如 第 一 个 GPU 
的 名 称 为 /gpu:0， 第 二 个 GPU 名 称 为 /gpu:1， 以 此 类 推 。 

TensorFlow 提供 了 一 个 快捷 的 方式 来 得 看 运行 每 一 个 运算 的 设备 。 在 生成 会 话 时 ， 可 
以 通过 设置 log_device placement 参数 来 打印 运行 每 一 个 运算 的 设备 。 下 面 的 程序 展示 了 如 
何 使 用 log device_ placement 这 个 参数 。 


import tensorflow as tf 


tf.constant([1.0, 2.0, 3.0], shape=[3], name='a') 

tf.constant ({[1.0, 2.0, 3.0], shape=[3], name='Db') 

CT 

# 通过 1og_device Placement 参数 来 箱 出 运行 每 一 个 运算 的 设备 。 

sess = tf.Session(config=tf.ConfigProto(log device placement=True)) 
print sess,run(c) 


a 
b 


在 没有 GPU 的 机 器 上 运行 以 上 代码 可 以 得 到 以 下 输出 : 


Device mapping: no known devices. 


add: /job:localhost/replica:0/task:0/cpu:0 
b: /job:localhost/replica:0/task:0/cpu:0 
a: /job:localhost/replica:0/task:0/cpu:0 
[2 

1 1 


在 以 上 代码 中 ，TensorFlow 程序 生成 会 话 时 加 入 了 参数 log_device_placement=True， 
所 以 程序 会 将 运行 每 一 个 操作 的 设备 输出 到 屏幕 。 于 是 除了 可 以 看 到 最 后 的 计算 结果 之 外 ， 
还 可 以 看 到 类 似 “add: /job:localhost/replica:0/task:0/cpu:0” 这 样 的 输出 。 这 些 输出 显示 了 执 
行 每 一 个 运算 的 设备 。 比 如 加 法 操作 add 是 通过 CPU 来 运行 的 ， 因 为 它 的 设备 名 称 中 包含 
T /cpu:0。 

在 配置 好 GPU 环境 的 TensorFlow 中 ”， 如 果 操 作 没 有 明确 地 指定 运行 设备 ， 那 么 
TensorFlow 会 优先 选择 GPU。 比 如 将 以 上 代码 在 亚马逊 (Amazon Web Services, AWS) 的 
g2.8xlarge 实例 上 运行 时 ， 会 得 到 以 下 运行 结果 。 


@ 如 何 安装 支持 GPU 的 TensorFlow 环境 可 以 参考 第 2 章 。 
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Device mapping: 
/job:localhost/replica 
1IQ: 0000:00:03.0 
/job:localhost/replica 
id: 0000:00:04.0 
/job:localhost/replica 
id: 0000:00:05.0 
/job:localhost/replica 
id: 0000:00:06.0 


:0/task:0/gpu:0 -> device: 0, name: 


:0/task:0/gpu:l1 -> device: 1, name: 


:0/task:0/gpu:2 -> device: 2, name: 


:0/task:0/gpu:3 -> device: 3, name: 


add: /job:localhost/replica:0/task:0/gpu:0 
b: /job:localhost/replica:0/task:0/gpu:0 
a: /job:localhost/replica:0/task:0/gpu:0 


CO 


GRID K520, pci bus 


GRID K520，Pci bus 


GRID K520, pci bus 


GRID K520, pci bus 


从 上 面 的 输出 可 以 看 到 在 配置 好 GPU 环境 的 TensorFlow 中 ，TensorFlow 会 目 动 优 先 
将 运算 放置 在 GPU 上 。 不 过 , 尽管 g2.8xlarge 实例 有 4 个 GPU, 在 默认 情况 下 ,TensorFlow 
只 会 将 运算 优先 放 到 /gpu:0 上 。 于 是 可 以 看 见 在 上 面 的 程序 中 ， 所 有 的 运算 都 被 放 在 了 
/gpu:0 上 。 如 果 需 要 将 某 些 运算 放 到 不 同 的 GPU 或 者 CPU 上 ， 就 需要 通过 tf.device 来 手 
工 指定 。 下 面 的 程序 给 出 了 一 个 通过 给 device 手工 指定 运行 设备 的 样 例 。 


import tensorflow as 七 


f 


# 通过 tf .device 将 运算 指定 到 特定 的 设备 上 。 
with tf.device('/cpu:0'): 
a = tf.constant([1.0, 2.0, 3.0], shape=[3], name='a') 
b = tf.constant([1.0, 2.0, 3.0], shape=[3], name="'DbD'!) 
with tf.device('/gpu:1'): 


C=Aa+Db 


sess = tf.Session(config=tf.ConfigProto(log device placement=True)) 


print sess.run(c) 


在 AWS g2.8xlarge 实例 上 运行 上 述 代 码 可 以 得 到 以 下 结果 : 


Device mapping: 


/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: GRID K520, pci bus 


id: 0000:00:03.0 


/job:localhost/replica:0/task:0/gpu:l1 -> device: 1, name: GRID K520, pci bus 


id: 0000:00:04.0 


/job:localhost/replica:0/task:0/gpu:2 -> device: 2, name: GRID K520, pci bus 


id: 0000:00:05.0 
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/job:localhost/replica:0/task:0/gpu:3 -> device: 3, name: GRID K520, pci bus 
id: 0000:00:06.0 


add: /job:localhost/replica:0/task:0/gpu:l1 
b: /job:localhost/replica:0/task:0/cpu:0 
a: /job:localhost/replica:0/task:0/cpu:0 
机 

' ' 


' 


在 以 上 代码 中 可 以 看 到 生成 常量 a 和 的 操作 被 加 载 到 了 CPU 上 , 而 加 法 操作 被 放 到 
了 第 二 个 GPU“/gpu:1” 上 。 在 TensorFlow 中 ， 不 是 所 有 的 操作 都 可 以 被 放 在 GPU 上 ， 如 
果 强 行将 无 法 放 在 GPU 上 的 操作 指定 到 GPU 上 ， 那 么 程序 将 会 报错 。 以 下 代码 给 出 了 一 
个 报错 的 样 例 。 


import tensorflow as tf 


# 在 CPU 上 运行 tf.Variable 
a_CcCpu = tf.Variable (0， name="a cpu") 


with tf.device('/gpu:0'): 
# 将 tf.Variable 强制 放 在 GPU 上 。 


a_gpu a tf.Variable (0, name="a gpu") 


sess = tf.Session(config=tf.ConfigProto(log device placement=True)) 
sess.runl(tf.initialize all Variables ()) 


运行 上 面 的 程序 将 会 报 出 以 下 错误 : 
tensorflow.python.framework.errors.InvalidArgumentError: Cannot assign a 
device to node 'a gpu': Could not satisfy explicit device specification 
'/device:GPU:0' because no supported kernel for GPU devices is available. 
Colocation Debug Info: 

Colocation group had the following types and devices:. 

Identity: CPU 

Assign: CPU 

Variable: CPU 

[ [Node: a gpu = Variable[container="", dtype=DT INT32, shape=[], shared 


name="", device="/device:GPU:0"] ()]] 
TYTT 


不 同 版 本 的 TensorFlow 对 GPU 的 支持 不 一 样 ， 如 果 程 序 中 全 部 使 用 强制 指定 设备 的 
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方式 会 降低 程序 的 可 移植 性 ,在 TensorFlow 的 kermel* 中 定义 了 哪些 操作 可 以 跑 在 GPU 上 。 
比如 可 以 在 variable_ops.cc 程序 中 找到 以 下 定义 。 


# define REGISTER GPU KERNELS (type) \ 

REGISTER KERNEL BUILDER ( ‘ 
Name ("Variable") .Device (DEVICE GPU) .TypeConstraint<type> ("dtype"),\ 
VariableOp),; , \ 


TF CALL GPU NUMBER TYPES (REGISTER GPU KERNELS); 


在 这 段 定义 中 可 以 看 到 GPU 只 在 部 分 数据 类 型 上 支持 给 Variable 操作 。 如 果 在 
TensorFlow 代码 库 中 搜索 调用 这 上段 代码 的 宏 TF_ CALL GPU_NUMBER TYPES, 可 以 发 现 
在 GPU 上 ，tf.Variable 操作 只 支持 实数 型 (float16、float32 和 double) 的 参数 。 而 在 报错 
的 样 例 代 码 中 给 定 的 参数 是 整数 型 的 ， 所 以 不 支持 在 GPU 上 运行 。 为 避免 这 个 问题 ， 
TensorFlow 在 生成 会 话 时 可 以 指定 allow_soft 二 参数 。 当 allow_ soft _ placement 参 
和 True 时 ， 如 果 运 算 无 法 由 GPU 执行 ,那么 TensorFlow 会 自动 将 它 放 到 CPU 上 执 

行 。 以 下 代码 给 出 了 一 个 使 用 allow_soft a 参数 的 样 例 。 


import tensorflow as tf 


a_Cpu po 七 二 四 Variable (0 7 name="a cpu") 
with tf.device('/gpu:0'): 
a gpu = tf.Variable(0, name="a gpu") 


# 通过 allow_ soft placement 参数 自动 将 无 法 放 在 GPU 上 的 操作 放 回 CPU 上 。 
sess = tf.Session(config=tf.ConfigProtol( 

allow soft placement=True, log device placement=True)) 
sess.run(tf.initialize all variables ()) 


Vg 

运行 上 面 这 段 程序 可 以 得 到 下 面 的 结果 : 

Device mapping: 

/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: GRID K520, pci bus 
id: 0000:00:03.0 . 


/job:localhost/replica:0/task:0/gpu:1 -> device: 1, name: GRID K520, pci bus 
id: 0000:00:04.0 


/job:localhost/replica:0/task:0/gpu:2 -> device: 2, name: GRID K520, pci bus 
id: 0000:00:05.0 


/job:localhost/replica:0/task:0/gpu:3 -> device: 3, name: GRID K520, pci bus 


(QD TensorFlow kerel 在 Github 的 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/core/kernels 
目录 下 。 


252 4 


wNv albbt.com DODOODDDDOD 





第 10 章 TensorFlow 计算 加 速 


id: 0000:00:06.0 

a gpu: /job:localhost/replica:0/task:0/cpu:0 

a gpu/read: /job:localhost/replica:0/task:0/cpu:0 

a gpu/Assign: /job:localhost/replica:0/task:0/cpu:0 

init/NoOp 1: /job:localhost/replica:0/task:0/gpu:0 

a cpu: /job:localhost/replica:0/task:0/cpu:0 

a cpu/read: /job:localhost/replica:0/task:0/cpu:0 

a cpu/Assign: /job:localhost/replica:0/task:0/cpu:0 

init/NoOp: /job:localhost/replica:0/task:0/gpu:0 

init: /job:localhost/replica:0/task:0/gpu:0 

a gpu/initial value: /job:localhost/replica:0/task:0/gpu:0 

a cpu/initial value: /job:1localhost/replica:0/task:0/cpu:0 

从 输出 的 日 志 中 可 以 看 到 在 生成 变量 a_gpu 时 , 无 法 放 到 GPU 上 的 运算 被 自动 调整 到 了 CPU 上 ( 比 
如 a gpu 和 a gpu/read)， 而 可 以 被 GPU 执行 的 命令 (比如 a gpu/initial value) 依旧 由 
GPU 执行 ， 


虽然 GPU 可 以 加 速 TensorFlow 的 计算 ， 但 一 般 来 说 不 会 把 所 有 的 操作 全 部 放 在 GPU 
上 。 一 个 比较 好 的 实践 是 将 计算 密集 型 的 运算 放 在 GPU 上 ， 而 把 其 他 操作 放 到 CPU 上 。 
GPU 是 机 器 中 相对 独立 的 资源 ， 将 计算 放 入 或 者 转 出 GPU 都 需要 额外 的 时 间 。 而 且 GPU 
需要 将 计算 时 用 到 的 数据 从 内 存 复 制 到 GPU 设备 上 , 这 也 需要 额外 的 时 间 。TensorFlow 可 
以 自动 完成 这 些 操作 而 不 需要 用 户 特别 处 理 ， 但 为 了 提高 程序 运行 的 速度 ， 用 尸 也 需要 尽 
量 将 相关 的 运算 放 在 同一 个 设备 上 。 


10.2 深度 学 习 训 练 并 行 模式 


TensorFlow 可 以 很 容易 地 利用 单个 GPU 加 速 深度 学 习 模 型 的 训练 过 程 , 但 要 利用 更 多 
的 GPU 或 者 机 器 ， 需 要 了 解 如 何 并 行 化 地 训练 深度 学 习 模 型 。 常 用 的 并 行 化 深度 学 习 模 型 
训练 方式 有 两 种 ， 同 步 模 式 和 异步 模式 。 本 节 中 将 介绍 这 两 种 模式 的 工作 方式 及 其 优 少 。 

为 帮助 读者 理解 这 两 种 训练 模式 ， 本 节 首 先 简单 回顾 一 下 如 何 训练 深度 学 习 模型 。 图 
10-1 展示 了 深度 学 习 模 型 的 训练 流程 图 。 深 度 学 习 模 型 的 训练 是 一 个 迭代 的 过 程 。 在 每 一 
轮 友 代 中 ， 前 向 传播 算法 会 根据 当前 参数 的 取 值 计算 出 在 一 小 部 分 训练 数据 上 的 预测 值 ， 
然后 反 向 传播 算法 再 根据 损失 函数 计算 参数 的 梯度 并 更 新 参数 。 在 并 行 化 地 训练 深度 学 习 模 
型 时 ， 不 同 设备 (GPU 或 CPU) 可 以 在 不 同 训 练 数据 上 运行 这 个 迭代 的 过 程 ， 而 不 同 并 行 
模式 的 区 别 在 于 不 同 的 参数 更 新 方式 。 

10-2 展示 了 异步 模式 的 训练 流程 图 。 从 图 10-2 中 可 以 看 到 ， 在 每 一 轮 友 代 时 ， 不 
同 设备 会 读 取 参数 最 新 的 取 值 ， 但 因为 不 同 设 备 读 取 参数 取 值 的 时 间 不 一 样 ， 所 以 得 到 的 
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值 也 有 可 能 不 一 样 。 根 据 当前 参数 的 取 值 和 随机 获取 的 一 小 部 分 训练 数据 ， 不 同 设备 各 目 
运行 肥 同 传播 的 过 程 并 独立 地 更 新 参数 。 可 以 简单 地 认为 异步 模式 就 是 单机 模式 复制 了 多 
份 ， 每 一 份 使 用 不 同 的 训练 数据 进行 训练 。 在 异步 模式 下 ， 不 同 设 备 之 间 是 完全 独立 的 。 






选取 一 部 分 训 
练 数据 
通过 前 向 传 拆 
获得 预测 侍 
通过 反 向 传 振 
亚 新 仁 数 


图 10-1 深度 学 习 模 型 训练 流程 图 









图 10-2 异步 模式 深度 学 习 模 型 训练 流程 图 


然而 使 用 异步 模式 训练 的 深度 学 习 模 型 有 可 能 无 法 达到 较 优 的 训练 结果 。 图 10-3 中 给 
出 了 一 个 具体 的 样 例 来 说 明 异 步 模 式 的 问题 。 其 中 黑色 曲线 展示 了 模型 的 损失 函数 ， 黑 色 
小 球 表示 了 在 时 刻 参 数 所 对 应 的 损失 函数 的 大 小 ,假设 两 个 设备 do 和 dj 在 时 间 加 同时 读 
取 了 参数 的 取 值 ， 那 么 设备 do 和 di 计算 出 来 的 梯度 都 会 将 小 黑 球 向 左 移动 。 假 设 在 时 间 4 
设备 已 经 完成 了 反 向 传播 的 计算 并 更 新 了 参数 , 修改 后 的 参数 处 于 图 10-3 中 小 灰 球 的 位 
置 . 然而 这 时 的 设备 dj 并 不 知道 参数 已 经 被 更 新 了 ， 所 以 在 时 间 二 时 ， 设备 di 会 继续 将 小 
球 向 左 移动 ， 使 得 小 球 的 位 置 达 到 图 10-3 中 小 白 球 的 地 方 。 从 图 10-3 中 可 以 看 到 ， 当 参 
数 被 调整 到 小 日 球 的 位 置 时 ， 将 无 法 达到 最 优点 。 
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1(8) 





图 10-3 ”异步 模式 训练 深度 学 习 模 型 存在 的 问题 示意 图 
随机 选取 部 分 获取 当前 参数 
训练 数据 CE 


ta = 


We 
前 向 传播 获得 前 向 传播 获得 
预测 值 预测 值 
反问 传播 获得 
参数 更 新 值 


反 向 传播 获得 
图 10-4 同步 模式 深度 学 习 模 型 训练 流程 图 


计算 参数 更 新 平 
均值 并 更 新 参数 

为 了 避免 更 新 不 同步 的 问题 ， 可 以 使 用 同步 模式 。 在 同步 模式 下 ， 所 有 的 设备 同时 读 

取 参 数 的 取 值 ， 并 且 当 反问 传播 算法 完成 之 后 同步 更 新 参数 的 取 值 。 单 个 设备 不 会 单独 对 

参数 进行 更 新 ， 而 会 等 待 所 有 设备 都 完成 反 向 传播 之 后 再 统一 更 新 参数 ”。 图 10-4 展示 了 


/ 









es 


前 向 传播 获得 
预测 值 
反 疝 传播 获得 
参数 更 新 值 










吕 不 同 的 算法 实现 会 有 略微 的 区 别 。TensorFlow 也 支持 更 加 灵活 的 同步 更 新 方式 使 计算 不 会 因为 某 个 设 
备 的 故障 而 被 卡 住 。 而 且 在 同步 模式 下 ，TensorFlow 会 保证 没有 设备 能 使 用 陈旧 的 梯度 更 新 模型 中 的 
参数 。 
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同步 模式 的 训练 过 程 。 从 图 10-4 中 可 以 看 到 ， 在 每 一 轮 迭 代 时 ， 不 同 设备 首先 统一 读 取 当 
前 参数 的 取 值 ， 并 随机 获取 一 小 部 分 数据 。 然 后 在 不 同 设备 上 运行 反 回 传播 过 程 得 到 在 各 
自 训练 数据 上 参数 的 梯度 。 注 意 虽 然 所 有 设备 使 用 的 参数 是 一 致 的， 但 是 因为 训练 数据 不 
同 ， 所 以 得 到 参数 的 梯度 就 可 能 不 一 样 。 当 所 有 设备 完成 反 同 传播 的 计算 之 后 ， 需 要 计算 
出 不 同 设备 上 参数 梯度 的 平均 值 ， 最 后 再 根据 平均 值 对 参数 进行 更 新 。 

同步 模式 解决 了 异步 模式 中 存在 的 参数 更 新 问题 ， 然 而 同步 模式 的 效率 却 低 于 异步 模 
式 。 在 同步 模式 下 ， 每 一 轮 进 代 都 需要 设备 统一 开始 、 统 一 结束 。 如 果 设 备 的 运行 速度 不 
一 致 ， 那 么 每 一 轮训 练 都 需要 等 待 最 慢 的 设备 结束 才能 开始 更 新 参数 ， 于 是 很 多 时 间 将 被 
花 在 等 待 上 。 昌 然 理论 上 异步 模式 存在 缺陷 ， 但 因为 训练 深度 学 习 模 型 时 使 用 的 随机 梯度 
下 降 本 身 就 是 梯度 下 降 的 一 个 近似 解法 , 而 且 即 使 是 梯度 下 降 也 无 法 保证 达到 全 局 最 优 值 ， 
所 以 在 实际 应 用 中 ， 在 相同 时 间 内 ， 使 用 寞 步 模 式 训练 的 模型 不 一 定 比 同步 模式 差 。 所 以 
这 两 种 训练 模式 在 实践 中 都 有 非常 广泛 的 应 用 。 


10.3 多 GPU 并 行 


在 10.2 节 中 介绍 了 常用 的 分 布 式 深 度 学 习 模 型 训练 模式 。 这 一 节 将 给 出 具体 的 
TensorFlow 代码 , 在 一 台 机 器 的 多 个 GPU 上 并 行 训练 深度 学 习 模 型 。 因 为 一 般 来 说 一 台 机 
器 上 的 多 个 GPU 性 能 相似 ， 所 以 在 这 种 设置 下 会 更 多 地 采用 同步 模式 训练 深度 学 习 模型 。 
下 面 将 给 出 具体 的 代码 ， 在 多 GPU 上 训练 深度 学 习 模 型 解决 MNIST 问题 。 本 节 的 样 例 代 
码 将 沿用 5.5 节 中 使 用 的 代码 框架 ， 并 且 使 用 5.5 节 中 给 出 的 mnist_ inference.py 程序 来 完 
成 神经 网 络 的 前 向 传播 过 程 。 以 下 代码 给 出 了 新 的 神经 网 络 训 练 程序 mnist_multi_ 
gpu train.pyse 

OIL tf s+ 

from datetime import datetime 


import os 
import time 


import tensorflow as tf 
import mnist inference 


# 定义 训练 神经 网 络 时 需要 用 到 的 配置 。 这 些 配 置 与 5.5 节 中 定义 的 配置 类 似 。 
BATCH SIZE = 100 

LEARNING RATE BASE = 0.001 

LEARNING RATE DECAY = 0.99 
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REGULARAZTION RATE = 0.0001 
TRAINING STEPS = 1000 
MOVING AVERAGE DECAY = 0.99 
N GPU = 4 


# 定义 日 志和 模型 输出 的 路 径 。 
MODEL SAVE PATH = "/path/to/logs and models/" 
MODEL NAME = "model.ckpt" 


# 定义 数据 存储 的 路 径 。 因 为 需要 为 不 同 的 GPU 提供 不 同 的 训练 数据 ， 所 以 通过 placerholder 
# 的 方式 就 需要 手动 准备 多 份 数据 。 为 了 方便 训练 数据 的 获取 过 程 ， 可 以 采用 第 7 章 中 介绍 的 输 

# 入 队列 的 方式 从 TFRecord 中 读 取 数据 。 于 是 在 这 里 提供 的 数据 文件 路 径 为 将 MNIST 训练 数据 
# 转化 为 TFRecords 格式 之 后 的 路 径 。 如 何 将 MNIST 数据 转化 为 TFRecord 格式 在 第 7 章 中 有 


# 详细 介绍 ， 这 里 不 再 装 述 。 
DATA PATH = "/path/to/data.tfrecords" 


# 定义 输入 队列 得 到 训练 数据 ， 上 有 具体 细节 可 以 参考 第 7 章 。 
def get input(): 


filename queue = tf.train.string input producer([DATA PATH]) 


reader = tf.TFRecordReader() 


/ Serialized example = reader.read(filename queue) 


# 定义 数据 解析 格式 。 

features = tf.parse single _ example 
serialized example, 
features={ | 


'image raw': tf.FixedLenFeature({[], tf.string), 
'pixels': tf.FixedLenFeature([], tf.int64), 


'Jabel': tf.FixedLenFeature([], tf.int64), 


}) 
# 解析 图 片 和 标签 信息 。 


decoded image = tf.decode rawl(features['image raw'], tf.uint8) 


reshaped image = tf.reshape (decoded image, [784]) 


retyped image = tf.cast (reshaped image, tf.float32) 


label = tf.cast (features['label'], tf.int32) 


# 定义 输入 队列 并 返回 。 
min atter dequeue = 10000 
capacity = min after dequeue + 3 * BATCH SIZE 
return tf.train.shuffle batch ( 
[retyped image, label], 
batch size=BATCH SIZE, 
capacity=capacity, 
min after dequeue=min after dequeue) 


# 定义 损失 函数 。 对 于 给 定 的 训练 数据 、 正 则 化 损失 计算 规则 和 命名 空间 ， 计 算 在 这 个 命名 空间 
# 下 的 总 损失 。 之 所 以 需要 给 定 命名 空间 是 因为 不 同 的 GPU 上 计算 得 出 的 正则 化 损失 都 会 加 入 名 为 
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# loss 的 集合 ， 如 果 不 通过 命名 空间 就 会 将 不 同 GPU 上 的 正则 化 损失 都 加 进来 。 
def'‘get loss'(x: y.» regularizerr Scope): 

# 沿用 5.5 节 中 定义 的 函数 来 计算 神经 网 络 的 前 向 传播 结果 。 

Y = mnist inference.inference(x, regularizer) 

# 计算 交叉 烂 损失 。 

Cross entropy = tf.reduce mean ( 

tf.nn.sparse softmax cross entropy with logits(y, y )) 

# 计算 当前 GPU 上 计算 得 到 的 正则 化 损失 。 

regularization loss = tf.add nl(tf.get collection('losses', scope)) 

# 计算 最 终 的 总 损失 。 

loss = cross entropy + regularization loss 

return loss 


# 计算 每 一 个 变量 梯度 的 平均 值 。 
def average gradients (tower grads): 
average grads = [] 
# 枚 举 所 有 的 变量 和 变量 在 不 同 GPU 上 计算 得 出 的 梯度 。 
for grad and vars in Zip(*tower grads): 
# 计算 所 有 GPU 上 的 梯度 平均 值 。 
grads = [] 
for g, _ in grad and vars: 
expanded g = tf.expand dims(g, 0) 
grads .append (expanded g) 
grad = tf.concat (0, grads) 
grad = tf.reduce mean(grad, 0) 


Vv = grad and vars[0][1] 
grad and var = (grad, v) 

# 将 变量 和 它 的 平均 梯度 对 应 起 来 。 

average grads.append (grad and var) 


# 返回 所 有 变量 的 平均 梯度 ， 这 将 被 用 于 变量 更 新 。 


return average grads 、 


# 主 训练 过 程 。 
def main (argv=None): | 
# 将 简单 的 运算 放 在 CPU 上 ， 只 有 神经 网 络 的 训练 过 程 放 在 GPU 士 。 
with tf.Graph() .as default(), tf.device('/cpu:0'): 
# 获取 训练 batch。 
Xs: YYy. =, get, input() 
regularizer = tf.contrib.layers.12 regularizer (REGULARAZTION RATE) 


# 定义 训练 轮 数 和 指数 衰减 的 学 习 率 。 

global step = tf.get Variable 
'global step', [], initializer=tf.constant initializer(0), 
trainable=False) 

learning rate = tf.train.exponential decayl 
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LEARNING RATE BASE, global step, 60000 / BATCH SIZE, 
LEARNING RATE DECAY) 


# 定义 优化 方法 。 


opt = tf.train.GradientDescentOptimizer (learning rate) 


tower grads = 
= 将 神 芝 网 络 的 优化 过 程 跑 在 不 同 的 GPU 上 。 
for i in Iange(N_ GPU) : 
# 将 优化 过 程 指定 在 一 个 GPU 上 。 
with tf.device('/gpu:%d' % i): 
with tf.name scope('GPU %d' % i) as scope: 
cur loss = get loss(x, y ,: regularizer, scope) 
# 在 第 一 次 声明 变量 之 后 ， 将 控制 变量 重用 的 参数 设置 为 True。 这 样 可 以 
# 让 不 同 的 GPU 更 新 同一 组 参数 。 注 意 tf .name _scope 函数 并 不 会 影响 
# tf.get” variable 的 命名 空间 。 
tf .get Variable SCcope() .reuse _ Variables() 


# 使 用 当前 GPU 计算 所 有 变量 的 梯度 。 
grads = opt.compute gradients (cur loss) 
tower grads.append (grads) 


# 计算 变量 的 平均 梯度 ， 并 输出 到 TensorBoard 日 志 中 。 
grads = average _ gradients (tower grads) 
for grad, var in grads: 
if grad is not None: 
tf.histogram summary( 
'gradients on average/%s' $% var.op.name, grad) 


# 使 用 平均 梯度 更 新 参数 。 

apply gradient op = opt.apply gradients 
grads, global step=global step) 

for Var in tf.trainable Variables() : 
tf.histogram summary (var.op.name, var) 


# 计算 变量 的 滑动 平均 值 。 

variable _ averages = tf.train.ExponentialMovingAverage!l 
MOVING AVERAGE DECAY, global step) 

variables averages op = variable averages.apply!l( 
tf.trainable variables ()) 


# 每 一 轮 返 代 需 要 更 新 变量 的 取 值 并 更 新 变量 的 滑动 平均 值 。 


train op = tf.groupl(apply gradient op, variables averages op) 
saver = tf,.train.Saver(tf.all Variables () ) 
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summary op = tf.merge all summaries () 
init = tf.initialize all variables() 


# 训练 过 程 。 
with tf.Session(config=tf.ConfigProto!l! 
allow soft placement=True, 
log device placement=True)) as sess: 
# 初始 化 所 有 变量 并 启动 队列 。 
init.run() 
coord = tf.train.Coordinator () 
threads = tf.train.start queue runners(sess=sess, Coord=coord) 
summary writer = tf.train.SummaryWriter (人 
MODEL SAVE PATH, sess .graph) 


for step in range (TRAINING STEPS): 
# 执行 神经 网 络 训 练 操 作 ， 并 记录 训练 操作 的 运行 时 间 。 
start time = time.time{() 
_r loss Value = sess.run([train“op, cur lo0ss]) 
duration = time.time() - start time 


# a 二 让 让 和 于 度 。 
if step != 0 and step % 10 = 
# 计算 使 用 过 的 训练 数据 个 数 。 因为 在 每 一 次 运行 训练 操作 时 ， 每 一 个 GPU 
# 都 会 使 用 一 个 batch 的 训练 数据 ， 所 以 总 共用 到 的 训练 数据 个 数 为 
: batch ey 个 数 。 
num examples per step = BATCH SIZE * N GPU 


# num examples per _step 为 本 次 迭代 使 用 到 的 训练 数据 个 数 ， 

# duration 为 运行 当前 训练 过 程 使 用 的 时 间 ， 于 是 平均 每 秒 可 以 处 理 的 训 
# 练 数据 个 数 为 num examples per step / duration。 
examples per sec = num examples per step / duration 


# duration 为 运行 当前 训练 过 程 使 用 的 时 间 ， 因 为 在 每 一 个 训练 过 程 中 ， 
# 每 一 个 GPU 都 会 使 用 一 个 batch 的 训练 数据 ， 所 以 在 单个 batch 上 的 训 
# 练 所 需要 时 间 为 auration / GPU 个 数 。 

sec per batch = duration / N GPU 


# 输出 训练 信息 。 
format str = ('step %d, loss = $.2f ($.1f examples/ ' 
Sec? %.3f sec/batch)") 
print (format str % (step, loss value, 
examples per sec, sec per batch)) 


# 通过 TensorBoard 可 视 化 训练 过 程 。 
summary = sess.runl(summary op) 
summary writer.add summary (summary, step) 
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# 每 卫 一 段 时 间 保 存 当前 的 模型 。 
if Step 和 1000 == 0 or (Step + 1) == TRAINING STEPS: 
checkpoint path = os.path.jJoin'( 
MODEL SAVE PATH, MODEL NAME) 
saver.save (sess, checkpoint path, global step=step) 


coord.request _ stop () 
coord.Join (threads) 


:Re sb, We 
tf.app.run() 


ir 
在 AWS 的 g2.8xlarge 实例 上 运行 上 面 这 段 程序 可 以 得 到 类 似 下 面 的 结果 : 

step 10, loss 71.90 (15292.3 examples/sec; 0.007 sec/batch) 
step 20, loss 37.97 (18758.3 examples/sec; 0.005 sec/batch) 
9.54 (16313.3 examples/sec; 0.006 sec/batch) 
11.84 (14199.0 examples/sec; 0.007 sec/batch) 


step 30, loss 


step 40, loss 


step 980, loss 0.66 (15034.7 examples/sec; 0.007 sec/batch) 


1.56 (16134.1 examples/sec; 0.006 sec/batch) 


step 990, loss 


| 


在 AWS 的 g2.8xlarge 实例 上 运行 以 上 代码 可 以 同时 使 用 4 个 GPU 训练 神经 网 络 。 
图 10-5 显示 了 运行 样 例 代 码 时 不 同 GPU 的 使 用 情况 。 


i 
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0 VRID KS20 


40C PO 1 5 a 


uffF 1 08968:00:65.9 off | 
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-=~ "~" 


证 





图 10-5 在 AWS 的 g2.8xlarge 实例 上 运行 MNIST 样 例 程序 时 GPU 的 使 用 情况 
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因为 在 5.5 节 中 定义 的 神经 网 络 规模 比较 小 ,所 以 在 图 10-5 中 显示 的 GPU 使 用 率 不 高 。 
如 果 训 练 大 型 的 神经 网 络 模型 ，TensorFlow 将 会 占 满 所 有 用 到 的 GPU。 

图 10-6 展示 了 通过 TensorBoard" 可视化 得 到 的 样 例 代 码 TensorFlow 计算 图 , 其 中 节点 
上 的 颜色 代表 了 不 同 的 设备 ， 比 如 黑色 代表 CPU、 白 色 代 表 第 一 个 GPU， 等 等 。 从 图 10-5 
中 可 以 看 出 ， 训 练 神经 网 络 的 主要 过 程 被 放 到 了 GPU 0、GPU 1、GPU 2 和 GPU 3 这 4 
个 模块 中 ， 而 且 每 一 个 模块 运行 在 一 个 GPU 上 。 对 比 图 10-5 中 的 TensorFlow 计算 图 可 视 
化 结果 和 图 10-4 中 介绍 的 同步 模式 分 布 式 深度 学 习 训 练 流程 图 可 以 发 现 , 这 两 个 图 的 结构 
是 非常 接近 的 。 





图 10-6 使 用 了 4 个 GPU 的 TensorFlow 计算 图 可 视 化 结果 


通过 调整 参数 N_GPU， 可 以 实验 同步 模式 下 随 着 GPU 个 数 的 增加 训练 速度 的 加 速 比 
率 。 图 10-7 展示 了 在 给 出 的 MNIST 样 例 代 码 上 , 训练 速度 随 着 GPU 数量 增加 的 变化 趋势 。 
从 图 10-7 中 可 以 看 出 ， 当 使 用 两 个 GPU 时 ， 模 型 的 训练 速度 是 使 用 一 个 GPU 的 1.92 倍 。 
也 就 是 说 当 GPU 数量 较 小 时 ,训练 速度 基本 可 以 随 着 GPU 的 数量 线性 增长 。 图 10-8 展示 
了 当 GPU 数量 增多 时 ， 训 练 速度 随 着 GPU 数量 增加 的 加 速 比 。 从 图 10-8 中 可 以 看 出 ， 当 
GPU 数量 增加 时 ， 虽 然 加 速 比 不 再 是 线性 ， 但 TensorFlow 仍然 可 以 通过 增加 GPU 数量 有 
效 地 加 速 深度 学 习 模 型 的 训练 过 程 。 


人 TensorBoard 在 第 9 章 中 有 详细 介绍 。 
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图 10-7 训练 速度 随 着 GPU 数量 增加 的 变化 趋势 
(此 数据 是 通过 MNIST 样 例 代码 在 AWS 的 g2.8xlarge 实例 上 测试 得 到 的 ) 
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相 比 合谋 单 个 G6PU， 训 涝 退 庶 的 过 牙 


10-8 训练 速度 随 着 GPU 数量 增加 的 变化 趋势 ， 此 数据 来 自 谷歌 官方 的 测试 结果 ” 


10.4 ”分布 式 TensorFlow 


通过 多 GPU 并 行 的 方式 可 以 达到 很 好 的 加 速效 果 。 然 而 一 台 机 器 上 能 够 安装 的 GPU 
有 限 ， 要 进一步 提升 深度 学 习 模 型 的 训练 速度 ， 就 需要 将 TensorFlow 分 布 式 运行 在 多 台 机 
器 上 。 本 节 将 介绍 如 何 编写 以 及 运行 分 布 式 TensorFlow 的 程序 。 首 先 ， 在 10.4.1 小 节 中 将 
介绍 分 布 式 TensorFlow 的 工作 原理 , 并 给 出 最 简单 的 分 布 式 TensorFlow 样 例 程序 。 在 这 一 
小 节 中 也 将 介绍 不 同 的 TensorFlow 分 布 式 方式 。 然 后 ， 在 10.4.2 小 节 中 将 给 出 两 个 完整 的 
TensorFlow 样 例 程序 来 同步 或 者 异步 地 训练 深度 学 习 模 型 。 最 后 ， 在 10.4.3 小 节 中 将 总 结 
目前 原生 态 分 布 式 TensorFlow 中 的 不 足 ， 并 介绍 才 云 科技 〈Caicloud.io) 提供 的 分 布 式 
TensorFlow 解决 方案 (TensorFlow as a Service，TaaS )。 


@ 具体 结果 可 以 参考 谷歌 官方 技术 博客 : https://research.googleblog.com/2016/04/announcing-tensorflow- 
08-now-with.html 。 
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10.4.1 分 布 式 TensorFlow 原理 


在 10.2 节 中 介绍 了 分 布 式 TensorFlow 训练 深度 学 习 模 型 的 理论 。 本 小 节 将 具体 介绍 如 
何 使 用 TensorFlow 在 分 布 式 集群 中 训练 深度 学 习 模 型 。 以 下 代码 展示 了 如 何 创 建 一 个 最 简 
单 的 TensorFlow 集群 : 

import tensorflow as tf 

c= tf.constant ("Hello, distributed TensorFlow!") 

# 创建 一 个 本 地 TensorFlow 集群 

server = tf.train.Server.create local server'() 

# 在 集群 上 创建 一 个 会 话 。 

sess = tt.Sesslon(SerVer. 七 az9et+t) 

# 输出 Hello, distributed TensorElowl 

print sess.runt(c) 


在 以 上 代码 中 ， 首 先 通 过 外.train.Server.create local server 函数 在 本 地 建立 了 一 个 只 有 
一 台 机 器 的 TensorFlow 集群 。 然 后 在 该 集群 上 生成 了 一 个 会 话 ， 并 通过 生成 的 会 话 将 运算 
运行 在 创建 的 TensorFlow 集群 上 。 虽 然 这 只 是 一 个 单机 集群 ， 但 它 大 致 反应 了 TensorFlow 
集群 的 工作 流程 。TensorFlow 集群 通过 一 系列 的 任务 (tasks) 来 执行 TensorFlow 计算 图 中 
的 运算 。 一 般 来 说 ， 不 同 任务 跑 在 不 同 机 器 上 。 最 主要 的 例外 是 使 用 GPU 时 ， 不 同 任务 可 
以 使 用 同一 台 机 器 上 的 不 同 GPU。TensorFlow 集群 中 的 任务 也 会 被 聚合 成 工作 (jobs)， 每 
个 工作 可 以 包含 一 个 或 者 多 个 任务 。 比 如 在 训练 深度 学 习 模 型 时 ， 一 台 运 行 反 向 传播 的 机 
器 是 一 个 任务 ， 而 所 有 运行 反 向 传播 机 器 的 集合 是 一 种 工作 。 

上 面 的 样 例 代码 是 只 有 一 个 任务 的 集群 。 当 一 个 TensorFlow 集群 有 多 个 任务 时 ， 需 要 
使 用 tf.train.ClusterSpec 来 指定 运行 每 一 个 任务 的 机 器 。 比 如 以 下 代码 展示 了 在 本 地 运行 有 
两 个 任务 的 TensorFlow 集群 。 第 一 个 任务 的 代码 如 下 : 


import tensorflow as tfE 
c= tf.constant ("Hello from serverl!") 


# 生成 一 个 有 两 个 任务 的 集群 ， 一 个 任务 跑 在 本 地 2222 端口 ， 另 外 一 个 跑 在 本 地 2223 端口 。 
cluster = tf.train.ClusterSpec! 

{"local": ["jocalhost:2222", "localhost: 2223"]}) 
# 通过 上 面 生 成 的 集群 配置 生成 Server， 并 通过 job name 和 task index 指定 当前 所 启动 
# 的 任务 。 因 为 该 任务 是 第 一 个 任务 ， 所 以 task index 为 0。 


server = tf.train.Server (cluster, job name="local", task index=0) 


# 通过 server .target 生成 会 话 来 使 用 TensorFlow 集群 中 的 资源 。 通 过 设置 
# log device placement 可 以 看 到 执行 每 一 个 操作 的 任务 。 


Sess = tf.Sessionl 
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server.target, config=tf.ConfigProto(log device placement=True)) 
print sess.run(c) 
server.joinl) 


下 面 给 出 了 第 二 个 任务 的 代码 : 


import tensorflow as tf 
c= tf.constant ("Hello from server2!") 


# 和 第 一 个 程序 一 样 的 集群 配置 。 集 群 中 的 每 一 个 任务 需要 采用 相同 的 配置 。 
cluster = tf.train.ClusterSpec'l( 

viocalr ("ocalhost: 2222 "LOocalhosts Wee" }) 
# 指定 task index 为 1， 所 以 这 个 程序 将 在 localhost:2223 启动 服务 。 


server = tf.train.Server(cluster, job name="local", task index=1) 


# 剩 下 的 代码 都 和 第 一 个 任务 的 代码 一 致 。 


启动 第 一 个 任务 后 ， 可 以 得 到 类 似 下 面 的 输出 : 


I tensorflow/core/distributed runtime/rpc/grpc channel.cc:206] Initialize 
HostPortsGrpcChannelCache for job local -> {localhost:2222, localhost:2223] 
I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:202] Started 
server with target: grpc://localhost:2222 


El123 08:26:06.824503525 12232 tcp client posix.c:173] failed to 
connect to 'ipv4:127.0.0.1:2223': socket error: connection refused 
El1123 08:26:08.825022513 12232 tcp client posix.c:173] failed to 


connect to ‘ipv4:127.0.0.1:2223':; socket error: Connection refused 

I tensorflow/core/common runtime/simple placer.cc:818] Const: /job:local/ 
replica:0/task:0/cpu:0 

Const: /job:local/replica:0/task:0/cpu:0 

Hello from serverl! 


从 第 一 个 任务 的 输出 中 可 以 看 到 ， 当 只 启动 第 一 个 任务 时 ， 程 序 会 停 下 来 等 待 第 二 个 
任务 启动 ， 而 且 持 续 输出 failed to connect to 'ipv4:127.0.0.1:2223'; socket error: connection 
refused。 当 第 二 个 任务 启动 后 , 可 以 看 到 从 第 一 个 任务 中 会 输出 Hello from serverl! 的 结果 。 
第 二 个 任务 的 输出 如 下 : 


I tensorflow/core/distributed runtime/rpc/grpc channel.cc:206] Initialize 
HostPortsGrpcChannelCache for job local -> {localhost:2222, localhost:2223]} 
I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:202] Started 
server with target: grpc://localhost:2223 

Const: /job:local/replica:0/task:0/cpu:0 

I tensorflow/core/common runtime/simple placer.cc:818] Const: /job:local/ 
replica:0/task:0/cpu:0 

Hello from server2! 


265 


ww ai bbt.com DODODDDDDC 





TensorFlow: 实战 Google 深度 学 习 框 架 


值得 注意 的 是 第 二 个 任务 中 定义 的 计算 也 被 放 在 了 设备 /job:local/replica:0/task:0/cpu:0 
上 。 也 就 是 说 这 个 计算 将 由 第 一 个 任务 来 执行 。 从 上 面 这 个 样 例 可 以 看 到 ， 通 过 
tf.train.Server.target 生成 的 会 话 可 以 统一 管理 整个 TensorFlow 集群 中 的 资源 。 

和 使 用 多 GPU 类 似 ，TensorFlow 支持 通过 tf.device 来 指定 操作 运行 在 哪个 任务 上 。 比 
如 将 第 二 个 任务 中 定义 计算 的 语句 改 为 以 下 代码 ， 就 可 以 看 到 这 个 计算 将 被 调度 到 
/job:local/replica:0/task:1/cpu:0 上 面 。 


with tf.device("/job:local/task:1"): 
c= tf,constant ("Hello from server2!") 


在 上 面 的 样 例 中 只 定义 了 一 个 工作 “local”。 但 一 般 在 训练 深度 学 习 模 型 时 ， 会 定义 两 
个 工作 。 一 个 工作 专门 负责 存储 、 获 取 以 及 更 新 变量 的 取 值 ， 这 个 工作 所 包含 的 任务 统称 
为 参数 服务 器 (parameter server，ps)。 另 外 一 个 工作 负责 运行 反 向 传播 算法 来 获取 参数 梯 
度 ， 这 个 工作 所 包含 的 任务 统称 为 计算 服务 器 (worker)。 下 面 给 出 了 一 个 比较 常见 的 用 于 
训练 深度 学 习 模 型 的 TensorFlow 集群 配置 方法 。 
tf.train.ClusterSpec!(1 
"worker”: [ 
"tf-worker0:2222", 
"tf-workerl:2222", 
"tf-worker2:2222" 
], 
DD [ 
"tf-ps0:2222", 
"tt=pD5Le2222" 
1})™ 


使 用 分 布 式 TensorFlow 训练 深度 学 习 模 型 一 般 有 两 种 方式 。 一 种 方式 叫做 计算 图 内 分 
布 式 (in-graph replication )。 使 用 这 种 分 布 式 训 练 方式 时 ， 所 有 的 任务 都 会 使 用 一 个 
TensorFlow 计算 图 中 的 变量 〈 也 就 是 深度 学 习 模 型 中 的 参数 )， 而 只 是 将 计算 部 分 发 布 到 不 
同 的 计算 服务 器 上 。10,3 节 中 给 出 的 使 用 多 GPU 样 例 程序 就 是 这 种 方式 。 多 GPU 样 例 程 
序 将 计算 复制 了 多 份 ， 每 一 份 放 到 一 个 GPU 上 进行 运算 。 但 不 同 的 GPU 使 用 的 参数 都 是 
在 一 个 TensorFlow 计算 图 中 的 。 因 为 参数 都 是 存在 同一 个 计算 图 中 ， 所 以 同步 更 新 参数 比 
较 容 易 控制 。 在 10.3 节 中 给 出 的 代码 也 实现 了 参数 的 同步 更 新 。 然 而 因为 计算 图 内 分 布 式 
需要 有 一 个 中 心 节点 来 生成 这 个 计算 图 并 分 配 计算 任务 ， 所 以 当 数据 量 太 大 时 ， 这 个 中 心 
节点 容易 造成 性 能 瓶颈 。 

另外 一 种 分 布 式 TensorFlow 训练 深度 学 习 模 型 的 方式 叫 计算 图 之 间 分 布 式 


Q@ 注意 这 里 给 出 的 tworker(i) 和 tf-ps(i) 都 是 服务 器 地 址 ， 
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(between-graph replication)。 使 用 这 种 分 布 式 方式 时 ,在 每 一 个 计算 服务 器 上 都 会 创建 一 个 
独立 的 TensorFlow 计算 图 ， 但 不 同 计算 图 中 的 相同 参数 需要 以 一 种 固定 的 方式 放 到 同一 个 
参数 服务 器 上 。 TensorFlow 提供 了 tftrain.replica device setter 函数 来 帮助 完成 这 一 个 过 程 ， 
在 10.4.2 小 节 中 将 给 出 具体 的 样 例 。 因 为 每 个 计算 服务 器 的 TensorFlow 计算 图 是 独立 的 ， 
所 以 这 种 方式 的 并 行 度 要 更 高 。 但 在 计算 图 之 间 分 布 式 下 进行 参数 的 同步 更 新 比较 困难 。 
为 了 解决 这 个 问题 ，TensorFlow 提供 了 tttain.SyncReplicasOptimizer 函数 来 帮助 实现 参数 
的 同步 更 新 。 这 让 计算 图 之 间 分 布 式 方式 被 更 加 广泛 地 使 用 。 在 10.4.2 小 节 中 将 给 出 使 用 计 
算 图 之 间 分 布 式 的 样 例 程序 来 实现 异步 模式 和 同步 模式 的 并 行 化 深度 学 习 模 型 训练 过 程 。 


10.4.2 分布 式 TensorFlow 模型 训练 


本 小 节 中 将 给 出 两 个 样 例 程序 分 别 实现 使 用 计算 图 之 间 分 布 式 (Between-graph 
replication) 完成 分 布 式 深 度 学 习 模型 训练 的 异步 更 新 和 同步 更 新 。 第 一 部 分 将 给 出 使 用 计 
算 图 之 间 分 布 式 实现 异步 更 新 的 TensorFlow 程序 。 这 一 部 分 也 会 给 出 具体 的 命令 行将 该 程 
序 分 布 式 的 运行 在 一 个 参数 服务 器 和 两 个 计算 服务 器 上 , 并 通过 TensorBoard 可 视 化 在 第 一 
个 计算 服务 器 上 的 TensorFlow 计算 图 。 第 二 部 分 将 给 出 计算 图 之 间 分 布 式 实现 同步 参数 更 
新 的 TensorFlow 程序 。 同 步 参数 更 新 的 代码 大 部 分 和 异步 更 新 相似 ， 所 以 在 这 一 部 分 中 将 
重点 介绍 它们 之 间 的 不 同 之 处 。 


异步 模式 样 例 程序 


下 面 的 样 例 代码 将 仍然 采用 5.5 节 中 给 出 的 模式 ， 并 复 用 5.5 节 mnist inference.py 程 
序 中 定义 的 前 向 传播 算法 。 以 下 代码 实现 了 异步 模式 的 分 布 式 神经 网 络 训练 过 程 。 


# 一 * 一 Coding: utf-8 -—*-— 


import time 
import tensorflow as tf : 
from tensorflow.examples.tutorials.mnist import input data 


import mist inference 


# 和 5.5 节 中 类 似 的 配置 神经 网 络 的 设置 。 
BATCH SIZE = 100 
LEARNING RATE BASE = 0.01 
LEARNING RATE DECAY = 0.99 
REGULARAZTION RATE = 0.0001 
TRAINING STEPS = 10000 

# 模型 保存 的 路 径 。 

: 267 


ww ai bbt.com DODODODODODOD 





TensorFlow: 实战 Google 深度 学 习 框 架 





MODEL SAVE PATH = "/path/to/model" 
# MNIST 数据 路 径 。 
DATA PATH = "“/path/to/data" 


# 通过 flags 指定 运行 的 参数 。 在 10.4.1 小 节 中 对 于 不 同 的 任务 (task) 给 出 了 不 同 的 程序 ， 
# 但 这 不 是 一 种 可 扩展 的 方式 。 在 这 一 小 节 中 将 使 用 运行 程序 时 给 出 的 参数 来 配置 在 不 同 

# 任务 中 运行 的 程序 。 

FLAGS = tf.app.flags.FLAGS 


# 指定 当前 运行 的 是 参数 服务 器 还 是 计算 服务 器 。 参 数 服务 器 只 负责 TensorFlow 中 变量 的 维护 
# 和 管理 ， 计 算 服 务 器 负责 每 一 轮 迭 代 时 运行 反 向 传播 过 程 。 


tf.app.flags.DEFINE string('job name', ‘worker', ' "ps or "worker"” ') 


# 指定 集群 中 的 参数 服务 器 地 址 。 

tt.app. ftlags.DEFINE string l( 
‘ps*hosts ry ti -p02227 tf Bs. 
'Comma-separated list of hostname:port for the parameter server jobs. ' 
"Gy tes = 


# 指定 集群 中 的 计算 服务 器 地 址 。 

tf.app.flags.DEFINE stringl( 
'worker hosts', ' tf-worker0:2222,tf-workerl:1111', 
'Comma-separated list of hostname:port for the worker JjJobs. ' 
"eB. “tf -Worker0Q :2222 tf=workeri:1111i” ") 


# 指定 当前 程序 的 任务 TD。TensorFlow 会 自动 根据 参数 服务 器 /计算 服务 器 列表 中 的 端口 号 
# 来 启动 服务 。 注 意 参数 服务 器 和 计算 服务 器 的 编号 都 是 从 0 开始 的 。 
tf.app.flags.DEFINE integer!( 
'task id', 0, 'Task ID of the worker/replica running the training.') 


# 定义 TensorFlow 的 计算 图 ， 并 返回 每 一 轮 迭 代 时 需要 运行 的 操作 。 这 个 过 程 和 5.5 节 中 的 主 
# 函数 基本 一 致 ， 但 为 了 使 处 理 分 布 式 计算 的 部 分 更 加 突出 ， 本 小 节 将 此 过 程 整理 为 一 个 函数 。 
def build model (x, y , is chief): 

regularizer = tf,contrib.layers.12 regularizer (REGULARAZTION RATE) 

# 通过 和 5 .5 节 给 出 的 mnist inference.py 代码 计算 神经 网 络 前 同 传播 的 结果 。 

Y = mnist inference.inference (x, regularizer) 

global step = tf.Variable(0, trainable=False) 


# 计算 损失 函数 并 定义 反 回 传播 过 程 。 

cross entropy = tf.nn.sparse softmax cross entropy with logits!\( 
yr tf.argmax(y_,. 1)) 

cross entropy mean = tf.reduce meanl(cross entropy) 

loss = cross entropy mean + tf.add n(tf.get collection('losses')) 

learning rate = tf.train.exponential decay( 
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LEARNING RATE BASE, global step，60000 / BATCH SIZE, 
LEARNING RATE DECAY) 


# 定义 每 一 轮 友 代 需要 运行 的 操作 。 

train op = tf.train.GradientDescentOptimizer (learning rate)\ 
-minimize (loss, global step=global step) 

return global step, loss, train op 


# 训练 分 布 式 深度 学 习 模 型 的 主 过 程 。 
def main (argv=None): 
# 解析 flags 并 通过 tf.train.ClusterSpec 配置 TensorFlow 集群 。 
ps hosts = FLAGS.ps hosts.split("',') 
worker hosts = FLAGS.worker hosts.split(',') 
cluster = tf.train.ClusterSpec({"ps": ps hosts, "worker": worker hosts}) 
# 通过 ClusterSpec 以 及 当前 任务 创建 Server。 
server = 七 .七 aln.SerVeLr (人 
cluster, job name=FLRAGS .job name, task index=FLAGS.task 1d) 


# 参数 服务 器 只 需要 管理 TensorFlow 中 的 变量 ， 不 需要 执行 训练 的 过 程 。server .join () 
# 会 一 直 停 在 这 条 语句 上 。 
if FLAGS.job name == "PS ': 

server.JjJoin() 


# 定义 计算 服务 器 需要 运行 的 操作 。 在 所 有 的 计算 服务 器 中 有 一 个 是 主 计算 服务 器 ， 它 除了 负责 
# 计算 反 向 传播 的 结果 ， 它 还 负责 输出 日 志和 保存 模型 。 

is chief = (FLAGS.task id == 0) 

mist = input data.read data sets (DATA PATH, one hot=True) 


# 通过 tf.train.replica device setter 函数 来 指定 执行 每 一 个 运算 的 设备 。 
#4 tf.train.replica device setter 函数 会 自动 将 所 有 的 参数 分 配 到 参数 服务 器 上 ， 而 
# 计算 分 配 到 当前 的 计算 服务 器 上 。 图 10-9 展示 了 通过 TensorBoard 可 视 化 得 到 的 第 一 个 计 
# 算 服 务 器 上 运算 分 配 的 结果 。 
with tf.device (tf.train.replica device setter!( 
worker device="/job:worker/task:%d" % FLAGS.task id， 
cluster=cluster)): 
x = tf.placeholder'! 
tf.float32, [None, mnist inference.INPUT NODE], 
name="'x-input') 
y_ = tf.placeholder!( 
tf.float32, [None, mnist inference.OUTPUT NODE], 
name='y-input') 
# 定义 训练 模型 需要 运行 的 操作 。 
global step, loss, train op = build model(x, y ) 
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# 定义 用 于 保存 模型 的 saver。 

saver = tf.train.Saver () 

# 定义 日 志 输 出 操作 。 

summary op = tf.merge all summaries () 

# 定义 变量 初始 化 操作 。 

init op = tf.initialize all variables() 

# 通过 tf.train.Supervisor 管理 训练 深度 学 习 模 型 的 通用 功能 。 

# tf.train. Supervisor 能 统一 管理 队列 操作 、 模 型 保存 、 日 志 输 出 以 及 会 话 的 生成 。 

SV = tf.train.Supervisor!l 
is chief=is chief, # 定义 当前 计算 服务 器 是 否 为 主 计 算 服务 器 ， 只 有 

# 主 计算 服务 器 会 保存 模型 以 及 输出 日 志 。 

logdir=MODEL SAVE PATH,  ## 指定 保存 模型 和 输出 日 志 的 地 址 。 


init op=init op, # 指定 初始 化 操作 。 
summary op=summary op, # 指定 日 志 生 成 操作 。 
saver = saver, # 指定 用 于 保存 模型 的 saver。 


global step=global step， # 指定 当前 友 代 的 轮 数 ， 这 个 会 用 于 生成 保存 模 
# 型 文件 的 文件 名 。 

save model secs=60, # 指定 保存 模型 的 时 间 间 隔 。 

save summaries secs=60)  ”# 指定 日 志 输 出 的 时 间 间 隔 。 


sess config = tf.ConfigProtol(lallow soft placement=True, 
log device placement=False) 
# 通过 tf.train.Supervisor 生成 会 话 。 
sess = SV.PIepare or wait for sessionl( 
server.target, config=sess config) 


step=0 
start time = time.time() 
# 执行 迭代 过 程 。 在 迭代 过 程 中 tf .train.Supervisor 会 帮助 输出 日 志 并 保存 模型 ， 
# 所 以 不 需要 直接 调用 这 些 过 程 。 
while not sv.should stop(): 

xSs, ys = mnist.train.next batch (BATCH SIZE) 

_/ loss value, global step value = sess.runl( 

[train op, loss, global step], feed dict={x: Sr YS 

if global step value >= TRAINING STEPS: break 
# 每 隔 一 段 时 间 输 出 训练 信息 。 
if step > 0 and step % 100 == 0: 

Guration = time.time() - start 七 Ime 

# 不 同 的 计算 服务 器 都 会 更 新 全 局 的 训练 轮 数 ， 所 以 这 里 使 用 

# global step value 可 以 直接 得 到 在 训练 中 使 用 过 的 batch 的 总 数 。 


sec per batch = duration / global step value 
1 
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format str = ("After %d training steps (%d global steps), " 
"loss on training batch is %g. " 
"(S.3f sec/batch) ") 
print (format str % (step, global step value, 
. loss value, sec per batch)) 
step += 1 
SV.StoPp (1) 


if™ “nane == ™” "man "s 
tf.app.run() 
假设 上 面 代码 的 文件 名 为 dist tf mnist async.py， 那 么 要 启动 一 个 拥有 一 个 参数 服务 
器 、 两 个 计算 服务 器 的 集群 ， 需 要 先 在 运行 参数 服务 器 的 机 器 上 局 动 以 下 命令 : 


Python dist tf mnist async.py \ 

--job name='ps' \ 

--task id=0 \ 

-=ps: hosts=!'tft=ps0:2222' N 

--worker hosts='tf-worker0:2222,tf-workerl:2222' 


然后 在 运行 第 一 个 计算 服务 器 的 机 器 上 启动 以 下 命令 : 
Python dist tf mnist async.py \ 

--job name='worker' \ 

--task id=0 \ 

--ps hosts='tf-ps0:2222' \ 

-worker hosts='tf-worker0:2222,tf-workerl:2222" 


最 后 在 运行 第 二 个 计算 服务 器 的 机 器 上 启动 以 下 命令 : 

python dist tf mnist async.py \ 

--job name='worker' \ 

--task id=1 \ 

--ps hosts='tf-ps0:2222' \ 

-~-worker hosts="'tf-worker0:;2222,tf-workerl:2222" ” 

在 启动 第 一 个 计算 服务 器 之 后 ， 这 个 计算 服务 器 就 会 尝试 连接 其 他 的 服务 器 (包括 计 
算 服 务 器 和 参数 服务 器 )。 如 果 其 他 服务 器 还 没有 局 动 ， 则 被 启动 的 计算 服务 器 会 报 连 接 出 
错 的 问题 。 下 面 展示 了 一 个 出 错 信息 。 

El1201 01:26:04.166203632 21402 tcp -client posix.c:173] failed to 

connect to 'ipv4:tf-workerl:2222': socket error: connection refused 

不 过 这 不 会 影响 TensorFlow 集群 的 启动 。 当 TensorFlow 集群 中 所 有 服务 器 都 被 启动 之 
后 , 每 一 个 计算 服务 器 将 不 再 报错 。 在 TensorFlow 集群 完全 启动 之 后 , 训练 过 程 将 被 执行 。 
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图 10-9 展示 了 第 一 个 计算 服务 器 的 TensorFlow 计算 图 。 从 图 10-9 中 可 以 看 出 ， 神 经 网 络 
中 定义 的 参数 被 放 在 了 参数 服务 器 上 (图 中 浅 灰 色 节 点 )， 而 反 向 传播 的 计算 过 程 则 放 在 了 
当前 的 计算 服务 器 上 (图 中 的 深 灰 色 节 点 )。 
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10-9 通过 TensorBoard 可 视 化 的 分 布 式 TensorFlow 计算 图 


在 计算 服务 器 训练 神经 网 络 的 过 程 中 ， 第 一 个 计算 服务 器 会 输出 类 似 下 面 的 信息 。 


After 100 
0.302718. 
After 200 
0.269476. 
After 300 
0.286755， 
After 400 
0.349983 . 
After 500 
0.229955 . 
After 600 
D.245588， 


training steps (100 
(0.039 sec/batch) 
training steps (200 
(0.037 sec/batch) 
training steps (300 
(0.037 sec/batch) 
training steps (463 
(0.033 sec/batch) 
training steps (666 
(0.029 sec/batch) 
training steps (873 
(0.027 sec/batch) 


global 
global 
global 
global 
global 


global 


第 二 个 计算 服务 器 会 输出 类 似 下 面 的 信息 。 


After 100 
0.223165 ， 


training steps (537 
(0.007 sec/batch) 


global 


After 200 training steps (732 global 


steps), 


steps), 


steps), 


steps), 
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steps), 


steps), 


steps), 
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0.186126. (0.010 sec/batch) 
After 300 training steps (925 global steps), loss on training batch is 
0.228191. (0.012 sec/batch) 


从 输出 的 信息 中 可 以 看 到 ， 在 第 二 个 计算 服务 器 局 动 之 前 ， 第 一 个 计算 服务 器 已 经 运 
行 了 很 多 轮 迭 代 了 。 在 异步 模式 下 ， 即 使 有 计算 服务 器 没有 正常 工作 ， 参 数 更 新 的 过 程 仍 
可 继续 ， 而 且 全 局 的 迭代 轮 数 是 所 有 计算 服务 器 返 代 轮 数 的 和 。 


同步 模式 样 例 程序 
和 异步 模式 类 似 ， 下 面 给 出 的 代码 同样 也 是 基于 5.5 小 节 中 给 出 的 框架 。 该 代码 实现 
了 同步 模式 的 分 布 式 神经 网 络 训练 过 程 。 


Roding eutfsB 二 六 一 


import 七 Ime 
import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


import mnist inference 


BATCH SIZE = 100 
LEARNING RATE BASE = 0.8 
LEARNING RATE DECAY = 0.99 
REGULARAZTION RATE = 0.0001 
TRAINING STEPS = 10000 -了 
MODEL SAVE PATH = "/path/to/model" 
DATA PATH = "/path/to/data" 


# 和 异步 模式 类 似 的 设置 flags。 
FLAGS = tf.app.flags.FLAGS 


tf.app.flags.DEFINE string('job name', ‘worker', ' "ps" or "worker"” ') 
tf.app.flags.DEFINE stringl( A 、 
PSMhOStewD Cf=<PS02222rtE PS 
'Comma-separated list of hostname:port for the parameter server jobs. ' 
eo Gm rE ps0 tp LD) 


tf.app.flags.DEFINE String( 
'worker hosts', ' tf-worker0:2222,tf-workerl:1111', 
'Comma-separated 1ist of hostname:port for the worker jobs. ' 


Ile.g. "tf-worker0:2222,tf-~workeril:1111” ') 


tf.app.flags.DEFINE integer( 
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‘task id', 0, 'Task ID of the worker/replica running the training.') 


# 和 异步 模式 类 似 地 定义 TensorFlow 的 计算 图 。 唯 一 的 区 别 在 于 使 用 

# tf.train.SyncReplicasOptimizer 函数 处 理 同步 更 新 。 

def build model(x, y , n workers, is chief): 
regularizer = tf.contrib.layers.12 regularizer (REGULARAZTION RATE) 
Y = mnist inference.inference (X regularizer) 
global step = tf.Variable(0, trainable=False) 


variable averages = tf.train.ExponentialMovingAverage!( 
MOVING AVERAGE DECAY, global step) 


variables averages op = variable averages.apply (tf.trainable variables ()) 


cross _ entropy = tf.nn.sparse softmax cross entropy with logits (人 
yr tf.argmax(y , 1)) 
Cross_entropy mean = tf.reduce meanl(cross entropy) 
loss = cross entropy mean + tf.add nl(tf.get collection('losses')) 
learning rate = tf.train.exponential decay( 
LEARNING RATE BASE, global step, 60000 / BATCH SIZE, 
LEARNING RATE DECAY) 


# 通过 tf.train.SyncReplicasOptimizer 了 汞 数 实现 同步 更 新 。 
opt = tf.train.SyncReplicasOptimizer( 
# 定义 基础 的 优化 方法 。 
tf.train.GradientDescentOptimizer (learning rate), 
# 定义 每 一 轮 更 新 需要 多 少 个 计算 服务 器 得 出 的 梯度 。 
replicas to aggregate=n workers, 
# 指定 总 共有 多 少 个 计算 服务 器 。 
total num replicas=n workers, 
# 指定 当前 计算 服务 器 的 编号 。 
replica id=FLAGS.task id) 


train op = opt.minimize(loss, global step=global step) 
return global step, loss, train op, opt 


def main(argv=None): 
# 和 异步 模式 类 似 地 创建 TensorFlow 集群 。 
ps_hosts = FLAGS.ps hosts.split(',') 
worker hosts = FLAGS.worker hosts.split(',') 
n workers = len(worker hosts) 


cluster=tf.train.ClusterSpec({"ps": ps hosts, "worker": worker hosts)})) 


server = tf.,.train.Server'\( 
cluster, job name = FLAGS.job name, task index=FLAGS.task id) 
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if FLAGS.Job name == "ps’": 
server .join() 


isechief = ‘(FLAGS.tasjl id == 0) 
mnist = input data.read data sets (DATA PATH, one hot=True) 


with tf.device (tf.train.replica device setter!( 

worker device="/job:worker/task:%d" % FLAGS.task id， 
cluster=cluster)): 

X = tf.placeholder!( 
tf.float32, [None, mnist inference.INPUT NODE], 
name='x-input') 

y= tf.placeholder( 
tf.float32, [None, mnist inference.OUTPUT NODE), 
name="'y-input') 

global step, loss, train op, opt = build model ( 
XxX: Yr n workers, is chief) 


saver = tf.train.Saver() 
summary op = tf.merge all summaries() 
init op = tf.initialize all variables() 


# 在 同步 模式 下 ， 主 计算 服务 器 需要 协调 不 同 计 算 服 务 器 计算 得 到 的 参数 梯度 并 最 终 更 新 


# 参数 。 这 需要 主 计算 服务 器 完成 一 些 额外 的 初始 化 工作 。 

telLS .Chief: 
# 定义 协调 不 同 计算 服务 器 的 队列 并 定义 初始 化 操作 。 
chief queue runner = opt.get chief queue runner() 
init tokens op = opt.get init tokens op (0) 


# 和 异步 模式 类 似 的 声明 tf.train.Supervisor。 
sv = tf.train.Supervisor(is chief=is chief, 
logdir=MODEL SAVE PATH, 
init op=init op, 
summary op=summary op, 
saver=saver, 
global step=global step, 
save model secs=60, 
save summaries secs=60) 
sess config = tf.ConfigProto(lallow soft placement=True, 
log device placement=False) 
sess = sv.prepare or wait for session(l 
server.target, config=sess config) 
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# 在 开始 训练 模型 之 前 ， 主 计算 服务 器 需要 启动 协调 同步 更 新 的 队列 并 执行 初始 化 操作 。 
if "1S"Cchief: 
sv.start queue runners(sess, [chief queue runner]) 
sess.run(init tokens op) 


# 和 异步 模式 类 似 的 运行 迭代 的 训练 过 程 。 
step = 0 
start time = 七 Ime.time() 
while not sv.should stop () : 
xs, ys = mnist.train.next batch (BATCH SIZE) 
_/ loss value, global step value = sess.runl( 
[train op, loss, global step], feed dict={x: xs, y 
if global step value >= TRAINING STEPS: break 


Ep 


if step > 0 and step $% 100 == 
duration = time.time() - start time 
sec per batch = duration / (global step value * n workers) 
format str = ("After %d training steps (%d global steps), " 
"loss on training batch is %g. " 
"($3f sec/batch)™") 
print (format str % (step, global step value, 


loss value, sec per batch)) 
step += 1 
SV.StoPp () 


if > names = z=" Main mn 
tf.app.run() 


和 异步 模式 类 似 , 在 不 同 机 器 上 运行 以 上 代码 就 可 以 启动 TensorFlow 集群 。 但 和 异步 
模式 不 同 的 是 ， 当 第 一 台 计 算 服 务 器 初始 化 完毕 之 后 ， 它 并 不 能 直接 更 新 参数 。 这 是 因为 
在 程序 中 要 求 每 一 次 参数 更 新 都 需要 来 自 两 个 计算 服务 器 的 梯度 ,在 第 一 个 计算 服务 器 上 ， 
可 以 看 到 与 下 面 类 似 的 输出 。 


El1201 01:26:04.166203632 21402 tcp client posix.c:173] failed to 
connect to 'ipv4:10.57.60.76:2222': socket error: connection refused 
After 100 training steps (100 global steps), loss on training batch is 
1.88782. (0.176 sec/batch) 


After 200 training steps (200 global steps), loss on training batch is 
0.834916. (0.101 sec/batch) 


After 800 training steps (800 global steps), loss on training batch is 
0.524181. (0.045 sec/batch) 


After 900 training steps (900 global steps), loss on training batch is 
0.384861. (0.042 sec/batch) 
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第 二 个 计算 服务 器 的 输出 如 下 ; 


After 100 training steps (i100 global steps), loss on training batch is 
1.88782. (0.028 sec/batch) 
After 200 training steps (200 gildbal steps), loss on training batch is 
0.834916,. (0:027 sec/batch) 


After 800 training steps (800 global steps), loss on training batch is 
0.474765. (0.025 sec/batch) 
After 9300 training steps (900 globai steps), loss on training batch is 
0.a20769. (0.026 sec/batch) 


在 第 一 个 计算 服务 器 的 第 一 行 输出 中 可 以 看 到 ， 前 100 轮 和 途 代 的 平均 速度 为 0.176 
sec/batch， 要 远 远 慢 于 最 后 的 平均 速度 0.042 sec/batch。 这 是 因为 在 第 一 迭代 轮 开 始 之 前 ， 
第 一 个 计算 服务 器 需要 等 待 第 二 个 计算 服务 咒 执 行 初始 化 的 过 程 ， 于 是 导致 前 100 轮 从 代 
的 平均 速度 是 最 慢 的 。 这 也 反应 了 同步 更 新 的 一 个 问题 。 当 一 个 计算 服务 器 被 卡 住 时 ， 其 
他 所 有 的 计算 服务 器 都 需要 等 待 这 个 最 慢 的 计算 服务 器 。 

为 了 解决 这 个 问题 ， 可 以 调整 tftrain.SyncReplicasOptimiizer 函数 中 的 replicas to _ 
aggregate 参数 。 当 replicas_to aggregate 小 于 计算 服务 器 总 数 时 ， 每 一 软 迭 代 就 不 需要 收集 
所 有 的 梯度 ， 从 而 避免 被 最 慢 的 计算 服务 器 卡 住 。TensorFlow 也 支持 通过 调整 同步 队列 初 
始 化 操作 ttrain.SyncReplicasOptimizer.get_init tokens op 中 的 参数 来 控制 对 不 同 计算 服务 
器 之 间 的 同步 要 求 。 当 提供 给 初始 化 函数 get_init_tokens_op 的 参数 大 于 0 时 ，TensorFlow 支 
持 多 次 使 用 由 同一 个 计算 服务 器 得 到 的 梯度 ， 于 是 也 可 以 缓解 计算 服务 器 性 能 瓶颈 的 问题 。 


10.4.3 ”使 用 Caicloud 运行 分 布 式 TensorFlow 


从 10.4.2 小 节 中 给 出 的 样 例 程序 可 以 看 出 , 每 次 运行 分 布 式 TensorFlow 都 需要 登录 不 
同 的 机 器 来 启动 集群 。 这 使 得 使 用 起 来 非常 不 方便 。 当 需要 使 用 100 台 机 器 运行 分 布 式 
TensorFlow 时 ， 需 要 手动 登录 到 每 一 台 机 器 并 启动 TensorFlow 服务 ， 这 个 过 程 十 分 烦琐 。 
而 且 ， 当 某 个 服务 器 上 的 程序 死 掉 之 后 ，TensorFlow 并 不 能 自动 重启 ， 这 给 监控 工作 带 来 
了 巨大 的 难度 。 如 果 类 比 TensorFlow 与 Hadoop2， 可 以 发 现 TensorFlow 只 实现 了 相当 于 
Hadoop 中 MapReduce 的 计算 框架 ， 而 没有 提供 类 似 Yarn 的 集群 管理 工具 以 及 HDFS 的 存 
储 系统 。 为 了 降低 分 布 式 TensorFlow 的 使 用 门槛 , 才 云 科技 (Caicloud.io) 基 于 Kubemetes2 容 


QD 更 多 关于 Hadoop 的 介绍 可 以 参考 其 官方 网 站 : http://hadoop.apache.org/。 

加 更 多 关于 Kubernetes 的 介绍 可 以 参考 其 官方 网 站 : http://kubernetes,io/。 
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器 云 平台 提供 了 一 个 分 布 式 TensorFlow 平台 TensorFlow as a Service (TaaS) 2 。 本 节 中 将 
大 致 介绍 如 何 使 用 Caicloud 提供 的 Taas 平台 运行 分 布 式 TensorFlow。 

从 10.4.2 小 节 中 给 出 的 代码 可 以 看 出 ， 编 写 分 布 式 TensorFlow 程序 需要 指定 很 多 与 模 
型 训练 无 关 的 代码 来 完成 TensorFlow 集群 的 设置 工作 。 为 了 降低 分 布 式 TensorFlow 的 学 习 
成 本 ，Caicloud 的 TensorFlow as a Service 《TaaS) 平台 首先 对 TensorFlow 集群 进行 了 更 高 
层 的 封装 ， 屏 蔽 了 其 中 与 模型 训练 无 关 的 底层 细节 。 其 次 ，TaaS 平台 结合 了 谷歌 开源 的 容 
器 云 平台 管理 工具 Kubernetes 来 实现 对 分 布 式 TensorFlow 任务 的 管理 和 监控 ,并 支持 通过 
UI 设置 分 布 式 TensorFlow 任务 的 节点 个 数 、 是 否 使 用 GPU 等 信息 。 

Caicloud 的 TaaS 平台 提供 了 一 个 抽象 基 类 CaicloudDistTensorflowBase, 该 类 封装 了 分 
布 式 TensorFlow 集群 的 配置 与 局 动 、 模 型 参数 共享 与 更 新 逻辑 处 理 、 计 算 节点 之 间 的 协同 
交互 以 及 训练 得 到 的 模型 和 日 志 的 保存 等 与 模型 训练 过 程 无 关 的 操作 。 用 户 只 需要 继承 该 
基 类 ， 并 实现 与 模型 训练 相关 的 函数 即 可 。 其 代码 结构 如 下 : 

import caicloud dist tensorflow base as caicloud 

class MyDistTfModel (caicloud.CaicloudDistTensorflowBase): 

""" 基 于 自身 业务 来 定义 训练 模型 、 执 行 训练 操作 等 "wm，" 

用 户 继承 的 类 需要 选择 性 地 实现 CaicloudDistTensorflowBase 基 类 中 的 4 个 函数 ， 它 们 
分 别 是 build_model、get_init 加 、train 和 after train。build model 给 出 了 定义 TensorFlow 
计算 图 的 接口 。 在 这 个 函数 中 ， 用 户 需要 处 理 输入 数据 、 定 义 深度 学 习 模型 以 及 定义 训练 
模型 的 过 程 。get init_fn 函数 中 可 以 定义 在 会 话 (tfSession) 生成 之 后 需要 额外 完成 的 初始 
化 工作 ， 当 没有 特殊 的 初始 化 操作 时 ， 用 户 可 以 不 用 定义 这 个 函数 。 这 个 函数 可 以 完成 模 
型 预 加 载 的 过 程 。train 函数 中 定义 的 是 每 一 轮训 练 中 需要 运行 的 操作 。TaaS 会 自动 完成 迭 
代 的 过 程 ， 但 用 户 需要 定义 每 一 轮 和 迭代 中 需要 执行 的 操作 。 最 后 在 训练 结束 之 后 ， 用 户 可 
以 通过 定义 after_ train 来 评测 以 及 保存 最 后 得 到 的 模型 。 下 面 将 通过 TaaS 平台 实现 分 布 式 
TensorFlow 训练 过 程 来 解决 MNIST 问题 ”。 

import tensorflow as tf 


trom tensorflow.examples.tutorials.mnist import input data 
import caicloud dist tensorflow base as caicloud® 


中 Taas 公有 云 服 务 测试 版 将 于 2017 年 3 月 底 正式 上 线 。 

四 Caicloud 提供 的 TaaS 平台 只 支持 TensorFlow 0.12.0 及 以 上 版 本 。 

加 在 Caicloud 提供 的 开发 环境 中 可 以 加 载 caicloud dist tensorflow base 模块 。Caicloud 同时 也 提供 了 用 
于 开发 的 caicloud dist_tensorflow_base 源 代码 及 pip 安装 包 ， 感 兴趣 的 读者 可 以 参考 才 云 科技 官网 
calcloud.io。 
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class CaicloudDistMnist (caicloud.CaicloudDistTensorflowBase): 


# 定义 神经 网 络 前 向 传播 的 过 程 。 


Qef 


inference (self, images): 

w = tf.Variable (tf.zeros([784, 10]), name='weights') 
tf.summary.histogram("weights", w) 

b = tf.Variable (tf.zeros([10]), name='bias') 
tf.summary.histogram("bias", b) 

predictions = tf.matmul (images, w) + b 

return predictions 


# 定义 优化 函数 。 在 同步 模式 下 需要 使 用 SyncReplicasOptimizerV2 来 同步 不 同 worker。 


def 


_Create optimizer (self, sync, num replicas): 
optimizer = tf.train.AdagradOptimizer (0.01);，; 
1 SvNC: 
num workers = num replicas 
optimizer = tf.train.SyncReplicasOptimizerV2( 
optimizer, 
replicas to aggregate=num workers, 
total num replicas=num workers, 
name="mnist sync replicas") 
return optimizer 


# build model 函数 中 ，global step 参数 是 全 局 的 训练 轮 数 ， 在 定义 优化 函数 时 需要 将 训 
# 练 轮 数 作为 参数 传 入 , 这 样 global step 可 以 通过 优化 器 自动 维护 。is chief 参数 给 出 了 
# 当前 节点 是 否 为 主 计 算 节点 。sync 参数 给 出 了 是 否 使 用 同步 模式 。 当 sync 为 True 时 模型 
# 需要 采用 同步 模式 更 新 ， 否则 使 用 异步 模式 。num replicas 参数 给 出 了 该 TensorFlow 集 
# 群 中 计算 节点 的 个 数 。builqd model 函数 需要 返回 一 个 tensorflow.train.Optimizer 
# 对 象 ，TaaS 平台 将 自动 使 用 该 对 象 来 完成 同步 模式 下 初始 化 的 工作 。 


def 


build model(self, global step, is chief, sync, num replicas): 
# 定义 当前 worker 的 训练 轮 数 ， 该 变量 可 以 用 来 输出 训练 信息 。 
Self step’= 0 


# 加 载 MNIST 数据 ， 数 据 存放 的 地 址 需要 为 Caicloud 提供 的 存储 路 径 。 
mnist = input data.read data sets ( 

"/caicloud/dist-— eT a a one hot=True) 
self. mnist = mnist 


# 定义 神经 网 络 的 输入 和 模型 的 前 向 传播 。 
input images = tf.placeholder ( 

tf.float32, [None, 784], name='images') 
self. input images = input images 
predictions = self. inference(input images) 


# 定义 损失 函数 。 
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labels = tf.placeholder (tf.float32, [None, 10], name="'labels') 
Self. labels = labels 
cross entropy = tf.reduce meanl 
tf.nn.softmax cross entropy with logits (predictions, labels)) 
self. loss = tf.reduce meanl( 
cross entropy, name='cross entropy mean ) 


# 定义 优化 函数 。 在 调用 优化 函数 时 ， 我 们 需要 将 global_step 传 入 优化 函数 ， 否 则 系统 
# 将 无 法 获取 全 局 的 训练 轮 数 。 
optimizer = self. create optimizer(sync, num replicas) 
train op = optimizer.minimize 人 
cross entropy, global step=global step) 
self. train op = train op 


# 定义 计算 正确 率 的 方法 。 

correct prediction = tf.equal (tf.argmax (predictions, 1), 
tf.argmax (labels, 1)) 

accuracy = tf.reduce mean (tf.cast (correct prediction, tf.float32)) 

self. accuracy = accuracy 


# 返回 优化 函数 。 


return optimizer 


# Caicloud TaaS 平台 在 生成 TensorFlow 会 话 (Session) 之 后 会 自动 地 执行 默认 的 初 
# 始 化 操作 ， 例 如 参数 初始 化 、 同 步 模式 更 新 队列 初始 化 等 。 但 如 果 用 户 有 其 他 需要 在 开始 模 
# 型 训练 之 前 完成 的 操作 ， 例 如 模型 预 加 载 ， 则 可 以 通过 定义 get init fn 函数 来 完成 。 
# get init fn 函数 的 参数 checkpoint path 提供 了 用 于 模型 预 加 载 的 checkpoint 文件 
# 地 址 或 checkpoint 文件 所 在 目录 的 路 径 。get init fn 函数 的 返回 为 一 个 函数 ， 该 函数 
# 必须 接收 一 个 参数 ， 即 一 个 可 用 的 会 话 (Session)。 该 函数 将 在 启动 模型 训练 之 前 被 调用 。 
# 以 下 代码 展示 了 如 何 通 过 该 函数 进行 模型 预 加 载 。 
def get init fnl(self, checkpoint path): 
# 获取 模型 文件 地 址 。 
if tf.gfile.IsDirectory(checkpoint path): 
checkpoint path = tf:train.latest checkpoint (checkpoint path) 
else: 
checkpoint path = checkpoint path 
print('warm-start from checkpoint {0}!'.format (checkpoint path)) 


# 模型 预 加 载 。 
saver = 七 f.train.SavVer (tf.trainable variables ()) 
def InitAssignFn (sess): 

saver.restore(sess, checkpoint path) 


# 返回 执行 模型 预 加 载 的 函数 。 
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return InitAssignFn 


# Caicloud TaaS 平台 会 自动 地 循环 调用 train 函数 来 训练 深度 学 习 模 型 。train 函数 中 ， 
# 用 户 只 需要 定义 每 一 轮训 练 中 需要 执行 的 步骤 。 训练 的 步骤 可 以 包括 调用 优化 函数 以 及 计算 滑 
# 动 平均 等 。train 函数 需要 返回 一 个 布尔 类 型 ,表示 当前 训练 是 否 需 要 结束 。 这 样 可 以 支持 当 
# 正确 率 比较 稳定 之 后 提前 结束 训练 。 
def train(self, session, global step, is chief): 
# 执行 模型 训练 步骤 并 记录 时 间 。 
start time = time.time'{) 
batch xs, batch ys = self. mnist,train.next batch (100) 
feed dict = {self. input images: batch xs, self. labels: batch ys)} 
_+ loss value, np global step = session.runl( 
[self. train op, self. loss, global step], 
feed dict=feed dict) 
Self._ step += 1 
Guration = time.time() - start time 


# 每 隔 一 段 时 间 输 出 训练 信息 。 
if self. step $$ 50 == 
print('Step %d: loss = %.2f (%.3f sec), global step: %d.' 和 ( 
self. step, loss value, duration, np global step)) 
if self. step $% 1000 == 
print("Accuaracy on Validation Data: %.3f" % session.runl 
self. accuracy, feed dict=1 
self. input images: self. mist.validation.images, 
self. labels: self. mnist.validation.labels})) 
return False 


# 在 模型 训练 成 功 结束 后 希望 能 够 计算 最 终 训练 得 到 的 模型 在 MNIST 测试 数据 集 上 的 正确 率 。 
# 这 个 过 程 可 以 通过 定义 after train 函数 来 实现 。 类 似 的 ， 用 户 也 可 以 在 after train 
# 函数 中 保存 最 终 的 模型 。 
def after train(self, session, is chief): 
print ("train done.") | 
print ("Accuracy on Test Data: $%.3f" % session,.runl 
self. accuracy, feed dict={ 
self. input images: self. mnist.test.images, 
self, labels: self. mist.test.labels})) 


将 以 上 代码 提交 到 Caicloud 的 TaaS 平台 之 后 ,可 以 看 到 类 似 图 10-10 所 示 的 监控 页 面 。 
在 监控 页 面 中 , TaaS 提供 了 对 资源 利用 率 、 训练 进度 、 训练 模式 \ 程序 日 志 以 及 TensorBoard 
等 多 种 信息 的 综合 展示 ， 用 户 可 以 更 好 地 了 解 训练 的 进度 和 状态 。 因 为 篇 幅 所 限 ， 对 TaaS 
感 兴趣 的 读者 可 以 在 Caicloud 的 官方 网 站 caicloud.io 上 找到 更 多 信息 和 教程 。 
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10-10 ”Caicloud 提供 的 TaaS 分 布 式 TensorFlow 任务 详情 页 面 
小 结 


在 本 章 中 介绍 了 TensorFlow 如 何 通 过 GPU 或 /和 分 布 式 集群 的 方式 加 速 深度 学 习 模 型 
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的 训练 过 程 。 首 先 ，10.1 节 介 绍 了 在 TensorFlow 中 使 用 单个 GPU 加 速 计 算 的 过 程 。 
TensorFlow 对 于 单个 GPU 的 支持 是 非常 方便 的 ， 儿 乎 不 需要 任何 的 额外 设置 。TensorFlow 
可 以 自动 将 计算 优先 分 配 到 GPU 上 。 这 一 节 也 介绍 了 如 何 使 用 给 device 函数 来 手动 配置 计 
算 运行 的 设备 。 然 后 ， 在 10.2 节 中 详细 介绍 了 训练 深度 学 习 模 型 的 并 行 模式 。 这 一 节 中 介 
绍 了 同步 模式 和 异步 模型 两 种 并 行 模式 , 并 介绍 了 这 两 种 模式 各 自 的 优 缺 点 。 接着 , 在 10.3 
节 中 给 出 了 通过 TensorFlow 实现 了 在 一 台 机 器 的 多 个 GPU 上 并 行 地 训练 深度 学 习 模 型 。 

最 后 , 在 10.4 节 中 介绍 了 如 何 通过 TensorFlow 集群 进一步 加 大 训练 深度 学 习 模型 的 并 
行 化 程度 。10.4.1 小 节 介 绍 了 TensorFlow 集群 的 运行 机 制 ， 并 给 出 了 局 动 简 单 TensorFlow 
集群 的 样 例 程 序 。 这 个 小 节 中 也 介绍 了 TensorFlow 集群 的 计算 图 内 分 布 式 方式 和 计算 图 之 
间 分 布 式 方式 ， 并 指出 在 海量 数据 下 ， 使 用 计算 图 之 间 分 布 式 方式 的 可 扩展 性 更 强 。10.4.2 
小 节 给 出 了 具体 的 TensorFlow 代码 ， 该 代码 通过 计算 图 之 间 分 布 式 方式 实现 了 并 行 化 深度 
学 习 模 型 训练 的 同步 模式 和 异步 模式 。10.4.3 小 节 中 指出 了 原生 的 TensorFlow 在 文 持 分 布 
式 中 的 不 足 ， 并 介绍 了 如 何 使 用 才 云 科技 (caicloud,io) 提供 的 TensorFlow as a Service 平 
台 来 更 加 高 效 的 运行 分 布 式 TensorFlow 模型 训练 过 程 。 
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终于 等 到 了 一 本 中 文 的 介绍 TensorFlow 的 书 。 这 本 
书 和 其 他 介绍 技术 框架 的 书 不 太一 样 ， 它 从 深度 学 习 
简介 开始 ， 一 点 一 点 深入 到 TensorFlow 的 使 用 ， 同 
时 把 算法 和 框架 的 使 用 结合 起 来 ， 让 读者 在 了 解 框架 
的 同时 ， 还 能 够 更 深入 地 了 解 深度 学 习 算 法 的 原理 。 
示例 代码 注释 详尽 ， 语 言 风 格 通 俗 易 懂 ， 算 法 介绍 由 
浅 入 深 ， 可 谓 是 不 可 多 得 的 好 书 。 

油 情 ”TalkingData 数据 科学 家 


本 书 由 浅 入 深 ,介绍 了 TensorFlow 在 典型 场景 中 的 
应 用 实践 ， 提 供 分 布 式 训 纵 等 大 最 实 例 ， 是 TensorFlow 
开发 者 和 深度 学 习 爱 好 者 的 必 备 参考 资料 。 

陈 这 可 ”小米 深 度 学 习 工 程 师 


Google 的 每 一 次 技术 发 布 ， 都 会 成 为 万 众 瞩 目的 焦 
点 。TensorFlow 从 开源 到 现在 短 短 一 年 多 时 间 ， 已 
经 吸引 了 全 球 开发 者 、 机 器 学 习 爱 好 者 、 科 研 和 企业 
用 户 贡 献 代 码 ， 新 功能 如 雨后春笋 般 出 现 ， 和 迭代 周 
期 之 短 ， 响 应 速度 之 快 ， 业 界 无 二 。 其 独特 的 张 量 
(Tensor ) 和 图 ( Graph ) 构建 算法 模型 的 方式 让 
人 丁目 一 新 ， 给 模型 设计 者 更 大 的 自由 度 。 
TensorFlow 的 入 门 学 习 资 源 也 琳琅 满目 ， 让 人 目 不 
上 暇 接 ， 无 从 选择 ，《TensorFlow: 实战 Google 深 度 
学 习 框 架 》 这 本 书 的 出 现 对 国内 开发 者 可 谓 及 时 雨 ， 
从 基本 概念 到 完整 模型 ， 从 抽象 理论 到 工程 实现 ， 涵 
盖 了 图 像 、 文 本 领域 的 常用 方法 ， 以 及 可 视 化 和 分 布 
式 计算 等 高 级 主题 ， 相 信 开 卷 之 后 大 有 神 益 ， 助 力 开 
发 者 完成 产品 级 应 用 落地 。 

起 未 科 ”阿里 云 资 泽 研 发 工程 师 


博文 视点 Broagdview 
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Google 的 深度 学 习 开 源 方 案 TensorFlow 近 年 来 在 人 
工 智能 领域 被 广泛 使 用 并 大 放 异 彩 。 本 书 不 仅 对 深度 
神经 网 络 的 底层 技术 做 了 讲解 ， 还 提供 了 Tensor- 
Flow 在 图 像 处 理 、 语 义理 解 、 性 能 加 速 、 数 据 可 视 
化 等 方面 的 实战 案例 ， 浓 缩 了 大 量 开 发 经 验 和 实践 知 
识 ， 是 一 本 极 有 参考 价值 的 TensorFlow 中 文 著作 。 
陈 运 文 达观 数据 重 事 长 兼 CEO 


作为 一 款 十 分 优秀 的 基于 计算 图 的 机 器 学 习 框 架 ， 
TensorFlow 自 面世 便 已 得 到 了 极 大 的 关注 。 本 书 由 
浅 入 深 地 讲解 了 TensorFlow 的 基本 使 用 方式 和 经 典 
的 深度 学 习 模 型 的 实践 方案 ， 其 中 既 包 含 了 大 量 的 实 
际 案例 ， 也 包含 了 作者 对 于 模型 和 研究 问题 的 理解 。 
对 于 使 用 TensorFlow 的 新 手 来 说 ， 本 书 可 以 帮助 他 
们 快速 入 门 ; 对 于 有 一 定 使 用 经 验 的 人 士 来 说 ， 本 书 
也 是 一 本 帮助 他 们 查阅 相关 资料 的 优秀 的 工具 书 。” 
邓 虱 军 多 畏 导 研究 部 总 监 


本 书 作 者 以 美国 顶级 大 学 读 研 的 学 识 、Google 全 职 
算法 专家 的 经 验 ， 从 0 到 1 系统 地 讲解 了 深度 学 习 以 及 
全 球 最 受 欢迎 的 深度 学 习 框 架 TensorFlow， 并 提供 
了 多 种 场景 的 应 用 实例 ， 是 深度 学 习 应 用 领域 的 开创 
性 著作 。 
向 光 北京 致 亲 科 技 有 有 限 公 司 创 始 人 、CEO， 
Carnegie Mellon University 计 算 机 博士 


国内 第 一 本 关于 TensorFlow 实 战 的 书 ， 通 俗 易 懂 ， 
深入 浅 出 ， 强 烈 推 荐 1 
讲 隶 ” 深 麻 学 习 专 家 ， 宝 欧 假 大 学 博士 后 
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